Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d’enfant

Lucas Block Medin, Lucile Gelin, Thomas Pellegrini


Abstract
La reconnaissance de parole d’enfant est un domaine de recherche encore peu développé en raison du manque de données et des difficultés caractéristiques de cette tâche. Après avoir exploré diverses architectures pour la RAP d’enfant dans de précédents travaux, nous nous attaquons dans cet article aux nouveaux modèles auto-supervisés. Nous comparons d’abord plusieurs modèles Wav2vec2, HuBERT et WavLM adaptés superficiellement à la reconnaissance de phonèmes sur parole d’enfant, et poursuivons nos expériences avec le meilleur d’entre eux, un WavLM base+. Il est ensuite adapté plus profondément en dégelant ses blocs transformer lors de l’entraînement sur parole d’enfant, ce qui améliore grandement ses performances et le fait surpasser significativement notre modèle de base, un Transformer+CTC. Enfin, nous étudions en détail les comportements de ces deux modèles en conditions réelles de notre application, et montrons que WavLM base+ est plus robuste à diverses tâches de lecture et niveaux de bruit.
Anthology ID:
2024.jeptalnrecital-jep.24
Volume:
Actes des 35èmes Journées d'Études sur la Parole
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
231–241
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-jep.24
DOI:
Bibkey:
Cite (ACL):
Lucas Block Medin, Lucile Gelin, and Thomas Pellegrini. 2024. Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d’enfant. In Actes des 35èmes Journées d'Études sur la Parole, pages 231–241, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d’enfant (Block Medin et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://preview.aclanthology.org/jeptaln-2024-ingestion/2024.jeptalnrecital-jep.24.pdf