@inproceedings{lavigne-cuny-2025-lingua,
title = "Lingua Libre {\`a} l'{\`e}re de l{'}automatisation: l'{I}.{A}. au service du crowdsourcing d{'}un corpus oral",
author = "Lavigne, Camille and
Cuny, Florian",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier Science Participative pour les Donn{\'e}es et Corpus Linguistiques 2025 (ParCol)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-parcol.4/",
pages = "11--24",
language = "fra",
abstract = "Lingua Libre, projet participatif collectant de la production orale, a amass{\'e} plus de 380 heures d{'}enregistrements, 1 350 000 fichiers audio, dans pr{\`e}s de 300 langues diff{\'e}rentes. Le potentiel d{'}un tel jeu de donn{\'e}es pour tester des hypoth{\`e}ses linguistiques ou pour des t{\^a}ches d{'}ASR est prometteur, mais diminu{\'e} par le manque d{'}harmonisation et de nettoyage syst{\'e}matique des donn{\'e}es. Ce travail est un pas suppl{\'e}mentaire vers un jeu de donn{\'e}es issu de Lingua Libre de grande qualit{\'e} et standardis{\'e}. Ce travail r{\'e}v{\`e}le des disparit{\'e}s r{\'e}currentes entre les enregistrements et la transcription qui en est fournie. Ces erreurs, bien que rares, sont r{\'e}guli{\`e}res, et potentiellement {\'e}vitables. En effet, le mod{\`e}le d{'}ASR Wav2Vec 2.0-Base apr{\`e}s affinage est capable de d{\'e}tecter une large part de ces erreurs. Il pourrait {\^e}tre un puissant outil {\`a} la disposition du contributorat, pour les assister {\`a} la t{\^a}che de patrouille."
}
Markdown (Informal)
[Lingua Libre à l’ère de l’automatisation: l’I.A. au service du crowdsourcing d’un corpus oral](https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-parcol.4/) (Lavigne & Cuny, JEP/TALN/RECITAL 2025)
ACL