Julie Mauclair


2020

pdf
Une nouvelle mesure de la réverbération pour prédire les performances a priori de la transcription de la parole (A new reverberation measure to predict a priori ASR performance)
Sébastien Ferreira | Jérôme Farinas | Julien Pinquier | Julie Mauclair | Stéphane Rabant
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Dans cette étude, nous explorons la prédiction a priori de la qualité de la transcription automatique de la parole dans le cas de la parole réverbérée enregistrée avec un seul microphone. Cette prédiction est faite avant le décodage pour informer les utilisateurs de la qualité de la transcription attendue. Dans cette étude, nous nous concentrons uniquement sur les pertes de performance liées à la réverbération. Une nouvelle mesure de réverbération appelée « Excitation Behavior » est introduite. Cette mesure exploite le résidus de la prédiction linéaire sur les fenêtres voisées du signal de parole. L’expérience a été menée sur le corpus Wall Street Journal, réverbéré par des réponses impulsionnelles provenant du REVERB Challenge. Par rapport aux autres mesures de réverbération testées, notre mesure obtient une amélioration relative de 20% de la prédiction du taux d’erreur (aussi bien au niveau des phonèmes que des mots).

pdf
Analyse de l’effet de la réverbération sur la reconnaissance automatique de la parole (Analyzing how reverberation affects Automatic Speech Recognition)
Sébastien Ferreira | Jérôme Farinas | Julien Pinquier | Julie Mauclair | Stéphane Rabant
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

La Reconnaissance Automatique de la Parole (RAP) est moins performante lorsque le signal de parole est de mauvaise qualité. Dans cette étude, nous analysons les erreurs commises par les systèmes de RAP lorsque la parole transcrite est réverbérée afin de mieux comprendre les raisons de ces erreurs. Notre analyse permet de mettre en valeur les erreurs dues notamment à un mauvais alignement phonétique. Nous avons pu constater que les phonèmes de courte durée sont majoritairement supprimés lors du décodage phonétique. De plus, les phonèmes détectés, qu’ils soient corrects ou pas, ont tendance à avoir la même durée, ce qui est anormal pour certaines classes phonétiques comme les voyelles courtes ou les plosives. Nous avons aussi analysé les principales confusions entre les différentes classes phonétiques. Finalement, nous avons pu montrer que les erreurs lors de l’alignement phonétique des systèmes de transcription automatique entraînent beaucoup d’erreurs de détection.

pdf
Sur l’utilisation de la reconnaissance automatique de la parole pour l’aide au diagnostic différentiel entre la maladie de Parkinson et l’AMS (On using automatic speech recognition for the differential diagnosis of Parkinson’s Disease and MSA This article presents a study regarding the contribution of automatic speech processing in the differential diagnosis between Parkinson’s disease and MSA (Multi-System Atrophies))
Imed Laaridh | Julie Mauclair
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Cet article présente une étude concernant l’apport du traitement automatique de la parole dans le cadre du diagnostic différentiel entre la maladie de Parkinson et l’AMS (Atrophie Multi-Systématisée). Nous proposons des outils de reconnaissance automatique de la parole pour évaluer le potentiel d’indicateurs de la parole dysarthrique caractérisant ces deux pathologies. Dans ce cadre, un corpus de parole pathologique (projet ANR Voice4PD-MSA) a été enregistré au sein des Centres Hospitaliers Universitaires (CHU) de Toulouse et Bordeaux. Les locuteurs sont des patients atteints de stades précoces de la maladie de Parkinson et d’AMS ainsi que des locuteurs témoins. Des mesures automatiques caractérisant la qualité de la reconnaissance automatique de la parole ainsi que la prosodie des patients ont montré un intérêt pour la caractérisation des pathologies étudiées et peuvent être considérées comme un outil potentiel pour l’aide à leur diagnostic différentiel.

2018

pdf
Carcinologic Speech Severity Index Project: A Database of Speech Disorder Productions to Assess Quality of Life Related to Speech After Cancer
Corine Astésano | Mathieu Balaguer | Jérôme Farinas | Corinne Fredouille | Pascal Gaillard | Alain Ghio | Imed Laaridh | Muriel Lalain | Benoît Lepage | Julie Mauclair | Olivier Nocaudie | Julien Pinquier | Oriol Pont | Gilles Pouchoulin | Michèle Puech | Danièle Robert | Etienne Sicard | Virginie Woisard
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

2006

pdf
Automatic Detection of Well Recognized Words in Automatic Speech Transcriptions
Julie Mauclair | Yannick Estève | Simon Petit-Renaud | Paul Deléglise
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)

This work adresses the use of confidence measures for extracting well recognized words with very low error rate from automatically transcribed segments in a unsupervised way. We present and compare several confidence measures and propose a method to merge them into a new one. We study its capabilities on extracting correct recognized word-segments compared to the amount of rejected words. We apply this fusion measure to select audio segments composed of words with a high confidence score. These segments come from an automatic transcription of french broadcast news given by our speech recognition system based on the CMU Sphinx3.3 decoder. Injecting new data resulting from unsupervised treatments of raw audio recordings in the training corpus of acoustic models gives statistically significant improvement (95% confident interval) in terms of word error rate. Experiments have been carried out on the corpus used during ESTER, the french evaluation campaign.