Audiocite.net un grand corpus d’enregistrements vocaux de lecture en français
Soline Felice, Solène Evain, Solange Rossato, François Portet
Abstract
L’arrivée de l’apprentissage auto-supervisé dans le domaine du traitement automatique de la parole a permis l’utilisation de grands corpus non étiquetés pour obtenir des modèles pré-appris utilisés comme encodeurs des signaux de parole pour de nombreuses tâches. Toutefois, l’application de ces méthodes de SSL sur des langues telles que le français s’est montrée difficile due à la quantité limitée de corpus de parole du français publiquement accessible. C’est dans cet objectif que nous présentons le corpus Audiocite.net comprenant 6682 heures d’enregistrements de lecture par 130 locuteurs et locutrices. Ce corpus est construit à partir de livres audio provenant du site audiocite.net. En plus de décrire le processus de création et les statistiques obtenues, nous montrons également l’impact de ce corpus sur les modèles du projet LeBenchmark dans leurs versions 14k pour des tâches de traitement automatique de la parole.- Anthology ID:
- 2024.jeptalnrecital-jep.28
- Volume:
- Actes des 35èmes Journées d'Études sur la Parole
- Month:
- 7
- Year:
- 2024
- Address:
- Toulouse, France
- Editors:
- Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA and AFPC
- Note:
- Pages:
- 271–280
- Language:
- URL:
- https://preview.aclanthology.org/ingest_wac_2008/2024.jeptalnrecital-jep.28/
- DOI:
- Cite (ACL):
- Soline Felice, Solène Evain, Solange Rossato, and François Portet. 2024. Audiocite.net un grand corpus d’enregistrements vocaux de lecture en français. In Actes des 35èmes Journées d'Études sur la Parole, pages 271–280, Toulouse, France. ATALA and AFPC.
- Cite (Informal):
- Audiocite.net un grand corpus d’enregistrements vocaux de lecture en français (Felice et al., JEP/TALN/RECITAL 2024)
- PDF:
- https://preview.aclanthology.org/ingest_wac_2008/2024.jeptalnrecital-jep.28.pdf