Thibault Batextasciitilde neras Roux
2024
Un paradigme pour l’interprétation des métriques et pour mesurer la gravité des erreurs de reconnaissance automatique de la parole
Thibault Batextasciitilde neras Roux
|
Mickael Rouvier
|
Jane Wottawa
|
Richard Dufour
Actes des 35èmes Journées d'Études sur la Parole
Les mesures couramment employées pour l’évaluation des transcriptions automatiques de la parole, telles que le taux d’erreur-mot (WER) et le taux d’erreur-caractère (CER), ont fait l’objet d’importantes critiques en raison de leur corrélation limitée avec la perception humaine et de leur incapacité à prendre en compte les nuances linguistiques et sémantiques. Bien que des métriques fondées sur les plongements sémantiques aient été introduites pour se rapprocher de la perception humaine, leur interprétabilité reste difficile par rapport au WER et CER. Dans cet article, nous surmontons ce problème en introduisant un paradigme qui intègre une métrique choisie pour obtenir un équivalent du taux d’erreur appelé Distance d’Édition Minimale, ou Minimum Edit Distance (minED). Nous proposons également d’utiliser cette approche pour mesurer la gravité des erreurs en fonction d’une métrique, d’un point de vue intrinsèque et extrinsèque.
Search