@inproceedings{kim-gendrot-2024-utilisation,
title = "Utilisation de wav2vec 2.0 pour des t{\^a}ches de classifications phon{\'e}tiques : aspects m{\'e}thodologiques",
author = "Kim, Lila and
Gendrot, Cedric",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes des 35{\`e}mes Journ{\'e}es d'{\'E}tudes sur la Parole",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.jeptalnrecital-jep.23/",
pages = "219--229",
language = "fra",
abstract = "L`apprentissage auto-supervis{\'e}, particuli{\`e}rement dans le contexte de la parole, a d{\'e}montr{\'e} son efficacit{\'e} dans diverses t{\^a}ches telles que la reconnaissance du locuteur et la reconnaissance de la parole. Notre question de recherche se concentre sur l`efficacit{\'e} des repr{\'e}sentations vectorielles - extraites de phon{\`e}mes - plus courtes par rapport {\`a} des s{\'e}quences plus longues dans la d{\'e}tection de la nasalit{\'e}. Deux approches distinctes ont {\'e}t{\'e} {\'e}tudi{\'e}es : extraire des vecteurs sur la dur{\'e}e du phon{\`e}me et prendre des s{\'e}quences plus longues avec une seconde ajout{\'e}e de chaque c{\^o}t{\'e} du phon{\`e}me, puis r{\'e}cup{\'e}rer la partie centrale a posteriori. Les r{\'e}sultats r{\'e}v{\`e}lent que les mod{\`e}les r{\'e}agissent diff{\'e}remment selon les phones et les locuteurs, avec une variabilit{\'e} observ{\'e}e {\`a} ces niveaux. Le mod{\`e}le {\`a} s{\'e}quences longues surpasse le mod{\`e}le {\`a} s{\'e}quences courtes en assurant une corr{\'e}lation plus robuste avec le d{\'e}bit d`air nasal."
}
Markdown (Informal)
[Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques](https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.jeptalnrecital-jep.23/) (Kim & Gendrot, JEP/TALN/RECITAL 2024)
ACL