Abstract
L’apprentissage auto-supervisé, particulièrement dans le contexte de la parole, a démontré son efficacité dans diverses tâches telles que la reconnaissance du locuteur et la reconnaissance de la parole. Notre question de recherche se concentre sur l’efficacité des représentations vectorielles - extraites de phonèmes - plus courtes par rapport à des séquences plus longues dans la détection de la nasalité. Deux approches distinctes ont été étudiées : extraire des vecteurs sur la durée du phonème et prendre des séquences plus longues avec une seconde ajoutée de chaque côté du phonème, puis récupérer la partie centrale a posteriori. Les résultats révèlent que les modèles réagissent différemment selon les phones et les locuteurs, avec une variabilité observée à ces niveaux. Le modèle à séquences longues surpasse le modèle à séquences courtes en assurant une corrélation plus robuste avec le débit d’air nasal.- Anthology ID:
- 2024.jeptalnrecital-jep.23
- Volume:
- Actes des 35èmes Journées d'Études sur la Parole
- Month:
- 7
- Year:
- 2024
- Address:
- Toulouse, France
- Editors:
- Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA and AFPC
- Note:
- Pages:
- 219–229
- Language:
- French
- URL:
- https://preview.aclanthology.org/add_missing_videos/2024.jeptalnrecital-jep.23/
- DOI:
- Cite (ACL):
- Lila Kim and Cedric Gendrot. 2024. Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques. In Actes des 35èmes Journées d'Études sur la Parole, pages 219–229, Toulouse, France. ATALA and AFPC.
- Cite (Informal):
- Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques (Kim & Gendrot, JEP/TALN/RECITAL 2024)
- PDF:
- https://preview.aclanthology.org/add_missing_videos/2024.jeptalnrecital-jep.23.pdf