2024
pdf
abs
Comment l’oreille humaine perçoit-elle la somnolence dans la parole ? Une analyse rétrospective d’études perceptuelles.
Vincent P. Martin
|
Colleen Beaumard
|
Jean-Luc Rouas
Actes des 35èmes Journées d'Études sur la Parole
La somnolence bénéficierait d’être mesurée dans des configurations écologiques, par exemple grâce à des enregistrements de parole. Pour évaluer la faisabilité de sa détection à partir de la parole par l’audition humaine, deux études perceptuelles précédentes ont produit des résultats contradictoires. Une façon de comprendre ce désaccord aurait pu être d’étudier sur quelles caractéristiques de la parole les annotateurs ont basé leur estimation, mais aucune étude n’a collecté cette information.Nous avons donc choisi d’extraire des descripteurs acoustiques des enregistrements annotés, et d’entraîner des modèles d’apprentissage automatique simples et explicables à reproduire l’annotation de chaque annotateur. Ensuite, nous mesurons la contribution de chaque caractéristique à la décision de chaque modèle, et identifions les plus importantes. Nous effectuons ensuite un regroupement hiérarchique pour dessiner les profils des annotateurs, en fonction des caractéristiques sur lesquelles ils s’appuient pour identifier la somnolence.
pdf
abs
Étude de la qualité vocale dans la parole professionnelle des aides-soignants français
Jean-Luc Rouas
|
Yaru Wu
|
Takaaki Shochi
Actes des 35èmes Journées d'Études sur la Parole
Cet article présente une méthodologie complète pour étudier les attributs vocaux des aides-soignants travaillant dans des maisons de retraite en France. L’objectif était d’analyser les modèles de parole de 20 aides-soignants dans deux établissements distincts. Les aides-soignants ont été équipés de microphones-casque connectés à des smartphones pour garantir une qualité audio optimale. Les données enregistrées comprenaient la lecture de texte, des entretiens informels et des jeux de rôle professionnels avec des patients fictifs. Le traitement des données a été effectué à l’aide d’un système de reconnaissance automatique de la parole de pointe, permettant de générer des séquences de mots ou de phonèmes avec leurs frontières. L’analyse s’est concentrée sur la détection des variations de la qualité vocale dans divers contextes de parole spontanée. L’objectif final est le développement d’outils de formation automatisés pour les aides-soignants, afin de capturer et reproduire leurs caractéristiques vocales uniques, améliorant ainsi leurs capacités professionnelles.
pdf
abs
Détection automatique des schwas en français - Application à la détection des troubles du sommeil
Colleen Beaumard
|
Vincent P. Martin
|
Yaru Wu
|
Jean-Luc Rouas
|
Pierre Philip
Actes des 35èmes Journées d'Études sur la Parole
La Somnolence Diurne Excessive affecte négativement les individus et est un problème de santé publique. L’analyse de la parole pourrait aider les cliniciens à la surveiller. Nous nous sommes concentrés sur la détection du schwa /@/ et avons trouvé un lien entre le nombre d’occurrences annoté manuellement et le niveau de somnolence des patients hypersomnolents d’un sous-ensemble du corpus TILE. Dans un second temps, afin de pouvoir généraliser ces résultats à l’intégralité du corpus, nous avons conçu un système de détection des schwas, robuste à la somnolence. Dans un troisième temps, nous avons étendu notre analyse à deux autres phonèmes supplémentaire /ø/ et /oe/. Nous avons ainsi observé une relation significative entre /ø/ et la combinaison des trois phonèmes et la somnolence subjective à court terme.
pdf
abs
La reconnaissance automatique de phonèmes est-elle réellement adaptée pour l’analyse de la parole spontanée ?
Vincent P. Martin
|
Colleen Beaumard
|
Charles Brazier
|
Jean-Luc Rouas
|
Yaru Wu
Actes des 35èmes Journées d'Études sur la Parole
La transcription phonémique automatique de la parole spontanée trouve des applications variées, notamment dans l’éducation et la surveillance de la santé. Ces transcriptions sont habituellement évaluées soit par la précision de l’identification des phonèmes, soit par leur segmentation temporelle. Jusqu’à présent, aucun système n’a été évalué simultanément sur ces deux tâches. Cet article présente l’évaluation d’un système de transcription phonétique du français spontané (corpus Rhapsodie) basé sur Kaldi. Ce système montre de bons résultats en identification des phonèmes et de leurs catégories, avec des taux d’erreur de 19,2 et 13,4 respectivement. Il est cependant moins performant en segmentation, manquant en moyenne 40 de la durée des phonèmes et 34 des catégories. Les performances s’améliorent avec le niveau de planification de la parole. Ces résultats soulignent le besoin de systèmes de transcription phonétique automatique fiables, nécessaires à des analyses plus approfondies de la parole spontanée.
pdf
abs
Conditioning LLMs with Emotion in Neural Machine Translation
Charles Brazier
|
Jean-Luc Rouas
Proceedings of the 21st International Conference on Spoken Language Translation (IWSLT 2024)
Large Language Models (LLMs) have shown remarkable performance in Natural Language Processing tasks, including Machine Translation (MT). In this work, we propose a novel MT pipeline that integrates emotion information extracted from a Speech Emotion Recognition (SER) model into LLMs to enhance translation quality. We first fine-tune five existing LLMs on the Libri-trans dataset and select the most performant model. Subsequently, we augment LLM prompts with different dimensional emotions and train the selected LLM under these different configurations. Our experiments reveal that integrating emotion information, especially arousal, into LLM prompts leads to notable improvements in translation quality.
pdf
abs
Why Voice Biomarkers of Psychiatric Disorders Are Not Used in Clinical Practice? Deconstructing the Myth of the Need for Objective Diagnosis
Vincent P. Martin
|
Jean-Luc Rouas
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
Given the high prevalence of mental disorders and the significant diagnostic delays and difficulties in patient follow-up, voice biomarkers hold the promise of improving access to care and therapeutic follow-up for people with psychiatric disorders. Yet, despite many years of successful research in the field, none of these voice biomarkers are implemented in clinical practice. Beyond the reductive explanation of the lack of explainability of the involved machine learning systems, we look for arguments in the epistemology and sociology of psychiatry. We show that the estimation of diagnoses, the major task in the literature, is of little interest to both clinicians and patients. After tackling the common misbeliefs about diagnosis in psychiatry in a didactic way, we propose a paradigm shift towards the estimation of clinical symptoms and signs, which not only address the limitations raised against diagnosis estimation but also enable the formulation of new machine learning tasks. We hope that this paradigm shift will empower the use of vocal biomarkers in clinical practice. It is however conditional on a change in database labeling practices, but also on a profound change in the speech processing community’s practices towards psychiatry.
2020
pdf
abs
The Objective and Subjective Sleepiness Voice Corpora
Vincent P. Martin
|
Jean-Luc Rouas
|
Jean-Arthur Micoulaud Franchi
|
Pierre Philip
Proceedings of the Twelfth Language Resources and Evaluation Conference
Following patients with chronic sleep disorders involves multiple appointments between doctors and patients which often results in episodic follow-ups with unevenly spaced interviews. Speech technologies and virtual doctors can help improve this follow-up. However, there are still some challenges to overcome: sleepiness measurements are diverse and are not always correlated, and most past research focused on detecting nstantaneous sleepiness levels of healthy sleep-deprived subjects. This article presents a large database to assess the sleepiness level of highly phenotyped patients that complain from excessive daytime sleepiness. Based on the Multiple Sleep Latency Test, it differs from existing databases by multiple aspects. First, it is omposed of recordings from patients suffering from excessive daytime sleepiness instead of sleep deprived healthy subjects. Second, it incites the subjects to sleep contrary to existing stressing sleepiness deprivation experimental paradigms. Third, the sleepiness level of the patients is evaluated with different temporal granularities - long term sleepiness and short term sleepiness - and both objective and subjective sleepiness measures are collected. Finally, it relies on the recordings of 94 highly phenotyped patients, allowing to unravel the influences of different physical factors (age, sex, weight, ... ) on voice.
pdf
Détection de la somnolence dans la voix : nouveaux marqueurs et nouvelles stratégies [Sleepiness detection from voice : new features and new strategies]
Vincent P. Martin
|
Jean-Luc Rouas
|
Pierre Philip
Traitement Automatique des Langues, Volume 61, Numéro 2 : TAL et Santé [NLP and Health]
pdf
abs
Détection de la somnolence par estimation d’erreurs de lecture (Sleepiness detection through reading errors estimation )
Vincent P. Martin
|
Gabrielle Chapouthier
|
Mathilde Rieant
|
Jean-Luc Rouas
|
Pierre Philip
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole
La détection automatique de la somnolence peut aider le suivi de patients souffrant de maladies neuro-psychiatriques chroniques. Des recherches précédentes ont déjà montré que cela est possible en utilisant des enregistrements vocaux. Dans cet article, nous proposons d’étudier les erreurs de lecture effectuées par des patients souffrant de Somnolence Diurne Excessive (SDE) sur le corpus TILE, enregistré à l’hôpital de Bordeaux. Avec des orthophonistes, nous avons défini et compté les erreurs de lecture des patients et les avons confrontées aux différentes mesures de somnolence du corpus. Nous montrons ici que relever ces erreurs peut être utile pour élaborer des marqueurs robustes de la somnolence objective mais aussi pour définir des critères d’exclusion des locuteurs n’ayant pas un niveau de lecture suffisant.
pdf
abs
Détection de la somnolence objective dans la voix (Objective sleepiness detection through voice )
Vincent P. Martin
|
Jean-Luc Rouas
|
Pierre Philip
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole
Le suivi des patients souffrant de maladies neuro-psychiatriques chroniques peut être amélioré grâce à la détection de la somnolence dans la voix. Cet article s’inspire des systèmes état-de-l’art en détection de la somnolence dans la voix pour le cas particulier de patients atteints de Somnolence Diurne Excessive (SDE). Pour cela, nous basons notre étude sur un nouveau corpus, le corpus TILE. Il diffère des autres corpora existants par le fait que les sujets enregistrés sont des patients souffrant de SDE et que leur niveau de somnolence est mesuré de manière subjective mais aussi objective. Le système proposé permet détecter la somnolence objective grâce à des paramètres vocaux simples et explicables à des non spécialistes.
2010
pdf
abs
Comparison of Spectral Properties of Read, Prepared and Casual Speech in French
Jean-Luc Rouas
|
Mayumi Beppu
|
Martine Adda-Decker
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
In this paper, we investigate the acoustic properties of phonemes in three speaking styles: read speech, prepared speech and spontaneous speech. Our aim is to better understand why speech recognition systems still fails to achieve good performances on spontaneous speech. This work follows the work of Nakamura et al. on Japanese speaking styles, with the difference that we here focus on French. Using Nakamura's method, we use classical speech recognition features, MFCC, and try to represent the effects of the speaking styles on the spectral space. Two measurements are defined in order to represent the spectral space reduction and the spectral variance extension. Experiments are then carried on to investigate if indeed we find some differences between the three speaking styles using these measurements. We finally compare our results to those obtained by Nakamura on Japanese to see if the same phenomenon appears. We happen to find some cues, and it also seems that phone duration also plays an important role regarding spectral reduction, especially for spontaneous speech.