@inproceedings{alonzo-canul-etal-2025-vers,
title = "Vers l{'}entra{\^i}nement de mod{\`e}les de reconnaissance automatique de la parole auto-supervis{\'e}s {\'e}quitables sans {\'e}tiquettes d{\'e}mographiques",
author = "Alonzo-Canul, Laura and
Lecouteux, Benjamin and
Portet, Fran{\c{c}}ois",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-taln.47/",
pages = "780--790",
language = "fra",
abstract = "Malgr{\'e} des avanc{\'e}es importantes dans le domaine de la Reconnaissance Automatique de la Parole (RAP), les performances de reconnaissance restent in{\'e}gales selon les groupes de locuteurs, ce qui pose des probl{\`e}mes d'{\'e}quit{\'e}. Bien qu{'}il existe des m{\'e}thodes pour r{\'e}duire ces in{\'e}galit{\'e}s, elles d{\'e}pendent de ressources externes au signal vocal, telles que des mod{\`e}les de locuteur (speaker embeddings) ou des {\'e}tiquettes d{\'e}mographiques textuelles, qui peuvent {\^e}tre indisponibles ou peu fiables. Dans ce travail, nous proposons une m{\'e}thode pour am{\'e}liorer l'{\'e}quit{\'e} dans la RAP qui ne d{\'e}pend d{'}aucune de ces ressources. Notre approche utilise une m{\'e}thode de clustering non supervis{\'e} {\`a} partir de repr{\'e}sentations acoustiques classiques, auto-supervis{\'e}es et hybrides. Nos exp{\'e}riences avec CommonV oice 16.1 d{\'e}montrent que les mod{\`e}les entra{\^i}n{\'e}s sur les clusters d{\'e}couverts am{\'e}liorent les performances des groupes d{\'e}mographiques d{\'e}savantag{\'e}s tout en conservant des performances comp{\'e}titives et en utilisant deux fois moins de donn{\'e}es d{'}entra{\^i}nement."
}
Markdown (Informal)
[Vers l’entraînement de modèles de reconnaissance automatique de la parole auto-supervisés équitables sans étiquettes démographiques](https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-taln.47/) (Alonzo-Canul et al., JEP/TALN/RECITAL 2025)
ACL