Florian Cuny


Fixing paper assignments

  1. Please select all papers that belong to the same person.
  2. Indicate below which author they should be assigned to.
Provide a valid ORCID iD here. This will be used to match future papers to this author.
Provide the name of the school or the university where the author has received or will receive their highest degree (e.g., Ph.D. institution for researchers, or current affiliation for students). This will be used to form the new author page ID, if needed.

TODO: "submit" and "cancel" buttons here


2025

pdf bib
Lingua Libre à l’ère de l’automatisation: l’I.A. au service du crowdsourcing d’un corpus oral
Camille Lavigne | Florian Cuny
Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)

Lingua Libre, projet participatif collectant de la production orale, a amassé plus de 380 heures d’enregistrements, 1 350 000 fichiers audio, dans près de 300 langues différentes. Le potentiel d’un tel jeu de données pour tester des hypothèses linguistiques ou pour des tâches d’ASR est prometteur, mais diminué par le manque d’harmonisation et de nettoyage systématique des données. Ce travail est un pas supplémentaire vers un jeu de données issu de Lingua Libre de grande qualité et standardisé. Ce travail révèle des disparités récurrentes entre les enregistrements et la transcription qui en est fournie. Ces erreurs, bien que rares, sont régulières, et potentiellement évitables. En effet, le modèle d’ASR Wav2Vec 2.0-Base après affinage est capable de détecter une large part de ces erreurs. Il pourrait être un puissant outil à la disposition du contributorat, pour les assister à la tâche de patrouille.