Abstract
Dans cet article, nous décrivons une étude expérimentale de segmentation de parole en unités acoustiques sous-lexicales (phones) à l’aide de réseaux de neurones. Sur le corpus de parole spontanée d’anglais américain BUCKEYE, une F-mesure de 68% a été obtenue à l’aide d’un réseau convolutif, en considérant une marge d’erreur de 10 ms. Cette performance est supérieure à celle d’un annotateur manuel, l’accord inter-annotateurs étant de 62%. Restreindre les données d’apprentissage à celles d’un unique locuteur, 30 minutes environ, a eu pour conséquence moins de 10% de perte et utiliser celles de 5 locuteurs a permis d’atteindre des résultats similaires à utiliser plus de données. Utiliser le modèle entraîné avec le corpus anglais sur un petit corpus d’une langue peu dotée a donné des résultats comparables à estimer un modèle avec des données de cette langue.- Anthology ID:
- 2016.jeptalnrecital-jep.44
- Volume:
- Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
- Month:
- 7
- Year:
- 2016
- Address:
- Paris, France
- Editors:
- Laurence Danlos, Thierry Hamon
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- AFCP - ATALA
- Note:
- Pages:
- 392–400
- Language:
- French
- URL:
- https://aclanthology.org/2016.jeptalnrecital-jep.44
- DOI:
- Cite (ACL):
- Céline Manenti, Thomas Pellegrini, and Julien Pinquier. 2016. Influence de la quantité de données sur une tâche de segmentation de phones fondée sur les réseaux de neurones (Phone-level speech segmentation with neural networks : influence of the amount of data ). In Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP, pages 392–400, Paris, France. AFCP - ATALA.
- Cite (Informal):
- Influence de la quantité de données sur une tâche de segmentation de phones fondée sur les réseaux de neurones (Phone-level speech segmentation with neural networks : influence of the amount of data ) (Manenti et al., JEP/TALN/RECITAL 2016)
- PDF:
- https://preview.aclanthology.org/proper-vol2-ingestion/2016.jeptalnrecital-jep.44.pdf