Florian Cuny

2025

pdf bib abs
Lingua Libre à l’ère de l’automatisation: l’I.A. au service du crowdsourcing d’un corpus oral
Camille Lavigne | Florian Cuny
Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)

Lingua Libre, projet participatif collectant de la production orale, a amassé plus de 380 heures d’enregistrements, 1 350 000 fichiers audio, dans près de 300 langues différentes. Le potentiel d’un tel jeu de données pour tester des hypothèses linguistiques ou pour des tâches d’ASR est prometteur, mais diminué par le manque d’harmonisation et de nettoyage systématique des données. Ce travail est un pas supplémentaire vers un jeu de données issu de Lingua Libre de grande qualité et standardisé. Ce travail révèle des disparités récurrentes entre les enregistrements et la transcription qui en est fournie. Ces erreurs, bien que rares, sont régulières, et potentiellement évitables. En effet, le modèle d’ASR Wav2Vec 2.0-Base après affinage est capable de détecter une large part de ces erreurs. Il pourrait être un puissant outil à la disposition du contributorat, pour les assister à la tâche de patrouille.

Co-authors

Camille Lavigne 1

Venues

jeptalnrecital1

Fix data

Florian Cuny

Fixing paper assignments

2025

Co-authors

Venues