LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre
Mathilde Hutin, Marc Allassonnière-Tang, Lucas Prégaldiny, Lucas Lévêque
Abstract
La constitution de corpus vocaux, nécessaires à l’exploration de la phonétique et de la phonologie des langues du monde, soulève de nombreux défis. La constitution de corpus multi-dialectes, permettant d’explorer la variation dialectale, ou de corpus multilingues, permettant de comparer plusieurs langues, est d’autant plus difficile que, pour que chaque dialecte /langue soit comparable aux autres dans le corpus, les données doivent avoir été enregistrées dans les mêmes conditions (même matériel, même protocole ...). Une solution à ces défis semble envisageable aujourd’hui grâce aux données participatives, par définition administrées et enregistrées par des volontaires, et donc moins coûteuses à tous points de vue pour la communauté scientifique. En mars 2025, Lingua Libre, la médiathèque linguistique participative de Wikimédia France ouverte depuis 2018, compte ~1,4M enregistrements en 284 langues par 2.547 individus à travers le monde : notre projet est de créer un outil pour rendre ces données brutes exploitables par les linguistes.- Anthology ID:
- 2025.jeptalnrecital-parcol.3
- Volume:
- Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)
- Month:
- 6
- Year:
- 2025
- Address:
- Marseille, France
- Editors:
- Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA \\& ARIA
- Note:
- Pages:
- 6–10
- Language:
- French
- URL:
- https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-parcol.3/
- DOI:
- Cite (ACL):
- Mathilde Hutin, Marc Allassonnière-Tang, Lucas Prégaldiny, and Lucas Lévêque. 2025. LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre. In Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol), pages 6–10, Marseille, France. ATALA \\& ARIA.
- Cite (Informal):
- LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre (Hutin et al., JEP/TALN/RECITAL 2025)
- PDF:
- https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-parcol.3.pdf