Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole

Ryan Whetten, Titouan Parcollet, Marco Dinarelli, Yannick Estève


Abstract
L’apprentissage auto-supervisé (SSL) a fait ses preuves pour le traitement automatique de la parole mais est généralement très consommateur de données, de mémoire et de ressources matérielles. L’approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L’article original de Google qui introduit BEST-RQ manque de détails, comme le nombre d’heures de GPU/TPU utilisées pour le pré-entraînement et il n’existe pas d’implémentation open-source facile à utiliser. De plus, BEST-RQ n’a pas été évalué sur d’autres tâches que la RAP et la traduction de la parole. Dans cet article, nous décrivons notre implémentation open-source de BEST-RQ et réalisons une première étude en le comparant à wav2vec 2.0 sur quatre tâches. Nous montrons que BERT-RQ peut atteindre des performances similaires à celles de wav2vec 2.0 tout en réduisant le temps d’apprentissage d’un facteur supérieur à deux.
Anthology ID:
2024.jeptalnrecital-jep.42
Volume:
Actes des 35èmes Journées d'Études sur la Parole
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
412–420
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-jep.42
DOI:
Bibkey:
Cite (ACL):
Ryan Whetten, Titouan Parcollet, Marco Dinarelli, and Yannick Estève. 2024. Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole. In Actes des 35èmes Journées d'Études sur la Parole, pages 412–420, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole (Whetten et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://preview.aclanthology.org/jeptaln-2024-ingestion/2024.jeptalnrecital-jep.42.pdf