Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole
Ryan Whetten, Titouan Parcollet, Marco Dinarelli, Yannick Estève
Abstract
L’apprentissage auto-supervisé (SSL) a fait ses preuves pour le traitement automatique de la parole mais est généralement très consommateur de données, de mémoire et de ressources matérielles. L’approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L’article original de Google qui introduit BEST-RQ manque de détails, comme le nombre d’heures de GPU/TPU utilisées pour le pré-entraînement et il n’existe pas d’implémentation open-source facile à utiliser. De plus, BEST-RQ n’a pas été évalué sur d’autres tâches que la RAP et la traduction de la parole. Dans cet article, nous décrivons notre implémentation open-source de BEST-RQ et réalisons une première étude en le comparant à wav2vec 2.0 sur quatre tâches. Nous montrons que BERT-RQ peut atteindre des performances similaires à celles de wav2vec 2.0 tout en réduisant le temps d’apprentissage d’un facteur supérieur à deux.- Anthology ID:
- 2024.jeptalnrecital-jep.42
- Volume:
- Actes des 35èmes Journées d'Études sur la Parole
- Month:
- 7
- Year:
- 2024
- Address:
- Toulouse, France
- Editors:
- Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA and AFPC
- Note:
- Pages:
- 412–420
- Language:
- French
- URL:
- https://aclanthology.org/2024.jeptalnrecital-jep.42
- DOI:
- Cite (ACL):
- Ryan Whetten, Titouan Parcollet, Marco Dinarelli, and Yannick Estève. 2024. Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole. In Actes des 35èmes Journées d'Études sur la Parole, pages 412–420, Toulouse, France. ATALA and AFPC.
- Cite (Informal):
- Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole (Whetten et al., JEP/TALN/RECITAL 2024)
- PDF:
- https://preview.aclanthology.org/jeptaln-2024-ingestion/2024.jeptalnrecital-jep.42.pdf