Nicolas Audibert


2022

pdf
PATATRA and PATAFreq: two French databases for the documentation of within-speaker variability in speech
Cécile Fougeron | Nicolas Audibert | Cedric Gendrot | Estelle Chardenon | Louise Wohmann
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Our knowledge on speech is historically built on data comparing different speakers or data averaged across speakers. Consequently, little is known on the variability in the speech of a single individual. Experimental studies have shown that speakers adapt to the linguistic and the speaking contexts, and modify their speech according to their emotional or biological condition, etc. However, it is unclear how much speakers vary from one repetition to the next, and how comparable are recordings that are collected days, months or years apart. In this paper, we introduce two French databases which contain recordings of 9 to 11 speakers recorded over 9 to 18 sessions, allowing comparisons of speech tasks with a different delay between the repetitions: 3 repetitions within the same session, 6 to 10 repetitions on different days during a two months period, 5 to 9 repetitions on different years. Speakers are recorded on a large set of speech tasks including read and spontaneous speech as well as speech-like performance tasks. In this paper, we provide detailed descriptions of the two databases and available annotations. We conclude by an illustration on how these data can inform on within-speaker variability of speech.

2020

pdf
Dis-moi comment tu varies ton débit, je te dirai qui tu es (Tell me how you vary your speech flow, I’ll tell you who you are Studying inter-speaker variability makes it possible to identify discriminating or even identifying phonetic characteristics)
Estelle Chardenon | Cécile Fougeron | Nicolas Audibert | Cédric Gendrot
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Si l’étude de la variabilité entre locuteurs permet d’identifier des caractéristiques phonétiques potentiellement discriminantes, voire spécifiques, il est essentiel de comprendre, si et comment, ces caractéristiques varient chez un même locuteur. Ici, nous examinons la variabilité de caractéristiques liées à la gestion temporelle de la parole sur un nombre limité de locuteurs, enregistrés sur plusieurs répétitions dans une même session, et sur 6 à 7 sessions espacées d’une année. Sur cette vingtaine d’enregistrements par locuteur, nous observons comment le débit articulatoire, les modulations de ce débit, et la durée des pauses varient en fonction de la répétition et de la session et en interaction avec le locuteur. Les résultats montrent que c’est dans la variation de gestion temporelle de la parole que les locuteurs se distinguent les uns des autres, en termes de régularité ou non entre enregistrements et au sein d’un même enregistrement.

pdf
Corrélats acoustiques et perceptifs de la personnalité perçue à travers la voix dans une population de dysphoniques légères (Acoustical and perceptual correlates of perceived personality through voice in minor dysphonia)
Amelia Pettirossi | Nicolas Audibert | Lise Crevier-Buchman
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Nous étudions les corrélats acoustiques et perceptifs de la personnalité à travers la voix dans une population de dysphoniques légères (G1 à G2) et de locutrices témoins (G0). 40 auditeurs naïfs ont évalué les voix de 61 femmes. Des échelles sémantiques différentielles ont été utilisées pour la cotation de la sévérité du trouble vocal et des traits de personnalité. Les 5 échelles sont : Joyeuse/Triste, Sympathique/Désagréable, Dynamique/Molle, Confiante/Hésitante, Aucun trouble vocal/Trouble vocal sévère. Le jugement de la pathologie vocale par les naïfs est principalement lié à l’évaluation experte du grade de dysphonie faite à partir du GRBAS. Des traits de personnalité plus négatifs sont attribués aux locutrices perçues comme plus dysphoniques. Certains facteurs acoustiques (f0, débit syllabique, HNR et ZCR) semblent influencer les auditeurs : les voix plus aigües, plus rauques et avec un débit rapide sont associées à un jugement plus positif.

pdf
Effets du sexe et de la langue parlée sur la production de la parole chez les locuteurs coréens et français (Effects of sex and language spoken on speech production among Korean and French speakers)
Dayeon Yoon | Nicolas Audibert | Cécile Fougeron
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Cette étude a pour but d’examiner l’effet du sexe et de la langue sur la production de la parole lue des locuteurs coréens et français. Dix paramètres acoustiques sont utilisés pour caractériser trois grandes dimensions : la voix (moyenne et écart-type de la F0, pente de LTAS et CPPs) ; les résonances du conduit vocal (F1 et F2 de /a/ et /i/) ; la gestion temporelle (débit de parole et articulatoire). Comme attendu, on observe une interaction entre sexe et langue sur la plupart des paramètres acoustiques supposés différencier les voix de femmes de celles d’hommes. Seuls le F1 de /i/ et la gestion temporelle ne montrent pas d’interaction entre sexe et langue. Ces résultats suggèrent que la différenciation de la voix entre sexes dépend de la langue parlée.

pdf
Towards Interactive Annotation for Hesitation in Conversational Speech
Jane Wottawa | Marie Tahon | Apolline Marin | Nicolas Audibert
Proceedings of the Twelfth Language Resources and Evaluation Conference

Manual annotation of speech corpora is expensive in both human resources and time. Furthermore, recognizing affects in spontaneous, non acted speech presents a challenge for humans and machines. The aim of the present study is to automatize the labeling of hesitant speech as a marker of expressed uncertainty. That is why, the NCCFr-corpus was manually annotated for ‘degree of hesitation’ on a continuous scale between -3 and 3 and the affective dimensions ‘activation, valence and control’. In total, 5834 chunks of the NCCFr-corpus were manually annotated. Acoustic analyses were carried out based on these annotations. Furthermore, regression models were trained in order to allow automatic prediction of hesitation for speech chunks that do not have a manual annotation. Preliminary results show that the number of filled pauses as well as vowel duration increase with the degree of hesitation, and that automatic prediction of the hesitation degree reaches encouraging RMSE results of 1.6.

2016

pdf
Que nous apprennent les gros corpus sur l’harmonie vocalique en français ? (What can we learn from big speech corpora about French vowel harmony?)
Giuseppina Turco | Cécile Fougeron | Nicolas Audibert
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

Afin de mieux identifier le poids relatif des différents facteurs décrits dans la littérature comme influençant le phénomène d’harmonie vocalique (HV) en français, 33k mots extraits de deux corpus de parole continue et présentant un contexte d’HV possible V1C(C)V2 (V1∈e,ɛ,o,ɔ) sont analysés. Le degré d’HV est mesuré en termes d’abaissement du F1 de V1 induit par la présence d’une V2 /+haut/ (fermée ou mi-fermée) par rapport à une V2 /-haut/ (ouverte ou mi-ouverte). Les résultats montrent une HV plus importante pour les voyelles moyennes postérieures que pour les antérieures, et plus faible lorsque l’orthographe favorise une prononciation mi-fermée de V1. Comme attendu, l’HV est plus forte quand V1 est séparé de V2 par une consonne labiale vs. linguale ou par un cluster consonantique sous-jacent vs. un cluster résultant de la chute d’un schwa. En revanche, le style de parole (conversationnelle vs. journalistique) a un effet plus nuancé que celui attendu.

2012

pdf
Distorsions de l’espace vocalique : quelles mesures? Application à la dysarthrie (Distortions of vocalic space: which measurements? An application to dysarthria.) [in French]
Nicolas Audibert | Cécile Fougeron
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

pdf
Les ajustements laryngaux en français (Laryngeal adjustments in French) [in French]
Rachid Ridouane | Nicolas Audibert | Van Minh Nguyen
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

pdf
Variations de la configuration labiale des voyelles /i, y, a/: effets de la position prosodique et du locuteur (Variations of labial configuration of vowels /i, y, a/: effect of prosodic positionand speaker) [in French]
Laurianne Georgeton | Nicolas Audibert
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

2008

pdf
Multimodal Spontaneous Expressive Speech Corpus for Hungarian
Márk Fék | Nicolas Audibert | János Szabó | Albert Rilliard | Géza Németh | Véronique Aubergé
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

A Hungarian multimodal spontaneous expressive speech corpus was recorded following the methodology of a similar French corpus. The method relied on a Wizard of Oz scenario-based induction of varying affective states. The subjects were interacting with a supposedly voice-recognition driven computer application using simple command words. Audio and video signals were captured for the 7 recorded subjects. After the experiment, the subjects watched the video recording of their session and labelled the recorded corpus themselves, freely describing the evolution of their affective states. The obtained labels were later classified into one of the following broad emotional categories: satisfaction, dislike, stress, or other. A listening test was performed by 25 naïve listeners in order to validate the category labels originating from the self-labelling. For 52 of the 149 stimuli, listeners’ judgements of the emotional content were in agreement with the labels. The result of the listening test was compared with an earlier test validating a part of the French corpus. While the French test had a higher success ratio, validating the labels of 79 tested stimuli, out of the 193, the stimuli validated by the two tests can form the basis of cross linguistic comparison experiments.

2004

pdf
E-Wiz: a Trapper Protocol for Hunting the Expressive Speech Corpora in Lab
Véronique Aubergé | Nicolas Audibert | Albert Rilliard
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)

pdf
Evaluating an Authentic Audio-Visual Expressive Speech Corpus
Albert Rilliard | Véronique Aubergé | Nicolas Audibert
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)