Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques

Lila Kim; Cédric Gendrot

Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques

Abstract

L’apprentissage auto-supervisé, particulièrement dans le contexte de la parole, a démontré son efficacité dans diverses tâches telles que la reconnaissance du locuteur et la reconnaissance de la parole. Notre question de recherche se concentre sur l’efficacité des représentations vectorielles - extraites de phonèmes - plus courtes par rapport à des séquences plus longues dans la détection de la nasalité. Deux approches distinctes ont été étudiées : extraire des vecteurs sur la durée du phonème et prendre des séquences plus longues avec une seconde ajoutée de chaque côté du phonème, puis récupérer la partie centrale a posteriori. Les résultats révèlent que les modèles réagissent différemment selon les phones et les locuteurs, avec une variabilité observée à ces niveaux. Le modèle à séquences longues surpasse le modèle à séquences courtes en assurant une corrélation plus robuste avec le débit d’air nasal.

Anthology ID:: 2024.jeptalnrecital-jep.23
Volume:: Actes des 35èmes Journées d'Études sur la Parole
Month:: 7
Year:: 2024
Address:: Toulouse, France
Editors:: Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA and AFPC
Note:
Pages:: 219–229
Language:: French
URL:: https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.jeptalnrecital-jep.23/
DOI:
Bibkey:
Cite (ACL):: Lila Kim and Cedric Gendrot. 2024. Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques. In Actes des 35èmes Journées d'Études sur la Parole, pages 219–229, Toulouse, France. ATALA and AFPC.
Cite (Informal):: Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques (Kim & Gendrot, JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:: https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.jeptalnrecital-jep.23.pdf

PDF Cite Search Fix data