Technologies de la parole et données de terrain : le cas du créole haïtien

William N. Havard, Renauld Govain, Daphne Gonçalves Teixeira, Benjamin Lecouteux, Emmanuel Schang


Abstract
Nous utilisons des données de terrain en créole haïtien, récoltées il y a $40$ ans sur cassettes puis numérisées, pour entraîner un modèle natif d’apprentissage auto-supervisé (SSL) de la parole (Wav2Vec2) en haïtien. Nous utilisons une approche de pré-entraînement continu (CPT) sur des modèles SSL pré-entraînés de deux langues étrangères : la langue lexificatrice – le français – et une langue non apparentée – l’anglais. Nous comparons les performances de ces trois modèles SSL, et de deux autres modèles SSL étrangers directement affinés, sur une tâche de reconnaissance de la parole. Nos résultats montrent que le modèle le plus performant est celui qui a été entraîné en utilisant une approche CPT sur la langue lexificatrice, suivi par le modèle natif. Nous concluons que l’approche de ”mobilisation des archives” préconisée par (Bird, 2020) est une voie prometteuse pour concevoir des technologies vocales pour de nouvelles langues.
Anthology ID:
2024.jeptalnrecital-taln.45
Volume:
31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA {\textbackslash}{\\&} AFPC
Note:
Pages:
686–694
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-taln.45
DOI:
Bibkey:
Cite (ACL):
William N. Havard, Renauld Govain, Daphne Gonçalves Teixeira, Benjamin Lecouteux, and Emmanuel Schang. 2024. Technologies de la parole et données de terrain : le cas du créole haïtien. In 31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position, pages 686–694, Toulouse, France. ATALA {\textbackslash}{\\&} AFPC.
Cite (Informal):
Technologies de la parole et données de terrain : le cas du créole haïtien (N. Havard et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://preview.aclanthology.org/jeptaln-2024-ingestion/2024.jeptalnrecital-taln.45.pdf