This is an internal, incomplete preview of a proposed change to the ACL Anthology.
For efficiency reasons, we don't generate MODS or Endnote formats, and the preview may be incomplete in other ways, or contain mistakes.
Do not treat this content as an official publication.
CécileFougeron
Also published as:
Cecile Fougeron
Fixing paper assignments
Please select all papers that belong to the same person.
Indicate below which author they should be assigned to.
Cette étude explore l’utilisation d’un Réseau de Neurones Convolutifs (CNN) pour distinguer la parole de patients dysarthriques ataxiques de celle de locuteurs neurotypiques, en utilisant diverses entrées. L’objectif est d’extraire automatiquement des informations pertinentes sur les troubles de la parole. Le CNN est utilisé pour exploiter les caractéristiques temporelles et spectrales des signaux de parole via des spectrogrammes, des trajectoires de formants et des courbes de modulation cepstrale. Comparé à un Multi-Layer Perceptron (MLP) alimenté par des mesures acoustico-phonétiques ciblées sur la modulation cepstrale, le CNN présente de meilleurs scores de classification dans la distinction entre dysarthrie et non dysarthrie, en particulier avec la modulation cepstrale. La population CTRL obtient de meilleurs taux de classification que la population SCA avec un MLP, alors qu’on on observe l’inverse avec un CNN.
Cette étude examine l’évolution de l’anticipation d’arrondissement intra-syllabique en fonction de l’âge, en se basant sur les travaux précédents de D’Alessandro et Fougeron (2021), qui montre une diminution de la coarticulation inter-syllabique chez les personnes âgées. Nous avons analysé acoustiquement les syllabes /sy/ et /si/ de 40 locuteurs français répartis en deux groupes : 20 jeunes adultes (23-34 ans) et 20 personnes âgées (72-86 ans). Nos résultats montrent une diminution significative de l’anticipation d’arrondissement chez les âgés, indépendante d’une diminution de débit articulatoire. Moins de coarticulation au sein d’une même syllabe ne peut pas s’expliquer par un encodage syllabe par syllabe, comme pouvait l’être la diminution de coarticulation entre syllabe. Nous avançons donc que cette diminution globale de la co-articulation reflète un changement de paramétrisation de la parole chez les personnes âgées limitant le chevauchement entre gestes articulatoires et garantissant l’atteinte des cibles articulatoires successives.
Our knowledge on speech is historically built on data comparing different speakers or data averaged across speakers. Consequently, little is known on the variability in the speech of a single individual. Experimental studies have shown that speakers adapt to the linguistic and the speaking contexts, and modify their speech according to their emotional or biological condition, etc. However, it is unclear how much speakers vary from one repetition to the next, and how comparable are recordings that are collected days, months or years apart. In this paper, we introduce two French databases which contain recordings of 9 to 11 speakers recorded over 9 to 18 sessions, allowing comparisons of speech tasks with a different delay between the repetitions: 3 repetitions within the same session, 6 to 10 repetitions on different days during a two months period, 5 to 9 repetitions on different years. Speakers are recorded on a large set of speech tasks including read and spontaneous speech as well as speech-like performance tasks. In this paper, we provide detailed descriptions of the two databases and available annotations. We conclude by an illustration on how these data can inform on within-speaker variability of speech.
Dans cette étude nous examinons, sur un groupe varié de 29 locuteurs, les différences de réponses entre locuteur à une demande explicite de modification du débit tout d’abord dans une tâche de répétition rapide, puis entre une tâche de lecture et une tâche de répétition confortable. Ces réponses sont évaluées en termes de débit articulatoire et de réduction vocalique (temporelle et/ou spectrale). Les résultats montrent différents profils de réponses dans la tâche de répétition rapide par rapport à la même tâche sans contrainte temporelle, et on voit que le débit peut être augmenté avec ou sans réduction spectrale. On montre également une forte variation dans les réponses des locuteurs à une tâche de répétition confortable par rapport à de la lecture, avec pour certains locuteurs des différences nettes d’organisation spectro-temporelle. Dans cette tâche assez artificielle de répétition, sans instruction précise, davantage de différences individuelles émergent.
Si l’étude de la variabilité entre locuteurs permet d’identifier des caractéristiques phonétiques potentiellement discriminantes, voire spécifiques, il est essentiel de comprendre, si et comment, ces caractéristiques varient chez un même locuteur. Ici, nous examinons la variabilité de caractéristiques liées à la gestion temporelle de la parole sur un nombre limité de locuteurs, enregistrés sur plusieurs répétitions dans une même session, et sur 6 à 7 sessions espacées d’une année. Sur cette vingtaine d’enregistrements par locuteur, nous observons comment le débit articulatoire, les modulations de ce débit, et la durée des pauses varient en fonction de la répétition et de la session et en interaction avec le locuteur. Les résultats montrent que c’est dans la variation de gestion temporelle de la parole que les locuteurs se distinguent les uns des autres, en termes de régularité ou non entre enregistrements et au sein d’un même enregistrement.
Nous comparons les effets de deux conditions induisant des stratégies d’adaptation différentes (retour auditif masqué et bite-block) avec les effets des modifications intentionnelles du débit de parole. Nous examinons ces effets en termes de F1 et en termes de débit articulatoire. Nous comparons ensuite les effets de ces mêmes perturbations sur les mêmes locuteurs, afin de définir si les stratégies inter- et intra-individuelles varient en fonction de la boucle perturbée (auditive ou somatosensorielle). Cinq locutrices ont été enregistrées sans perturbation, avec un retour auditif masqué, avec un bite-block et avec des changements de tempo instruits (lent et rapide). Les résultats montrent une augmentation du débit en parallèle d’une augmentation du F1 des voyelles ouvertes, ce qui permet de supposer que les modifications spectrales et les modifications de débit ne seraient pas corrélées. La même augmentation de F1 est observée lors d’une modification intentionnelle du débit de parole.
Cette étude a pour but d’examiner l’effet du sexe et de la langue sur la production de la parole lue des locuteurs coréens et français. Dix paramètres acoustiques sont utilisés pour caractériser trois grandes dimensions : la voix (moyenne et écart-type de la F0, pente de LTAS et CPPs) ; les résonances du conduit vocal (F1 et F2 de /a/ et /i/) ; la gestion temporelle (débit de parole et articulatoire). Comme attendu, on observe une interaction entre sexe et langue sur la plupart des paramètres acoustiques supposés différencier les voix de femmes de celles d’hommes. Seuls le F1 de /i/ et la gestion temporelle ne montrent pas d’interaction entre sexe et langue. Ces résultats suggèrent que la différenciation de la voix entre sexes dépend de la langue parlée.
Afin de mieux identifier le poids relatif des différents facteurs décrits dans la littérature comme influençant le phénomène d’harmonie vocalique (HV) en français, 33k mots extraits de deux corpus de parole continue et présentant un contexte d’HV possible V1C(C)V2 (V1∈e,ɛ,o,ɔ) sont analysés. Le degré d’HV est mesuré en termes d’abaissement du F1 de V1 induit par la présence d’une V2 /+haut/ (fermée ou mi-fermée) par rapport à une V2 /-haut/ (ouverte ou mi-ouverte). Les résultats montrent une HV plus importante pour les voyelles moyennes postérieures que pour les antérieures, et plus faible lorsque l’orthographe favorise une prononciation mi-fermée de V1. Comme attendu, l’HV est plus forte quand V1 est séparé de V2 par une consonne labiale vs. linguale ou par un cluster consonantique sous-jacent vs. un cluster résultant de la chute d’un schwa. En revanche, le style de parole (conversationnelle vs. journalistique) a un effet plus nuancé que celui attendu.
Le rôle du contexte est connu dans la réalisation ou non du schwa en français. Deux grands corpus oraux de parole journalistique (ETAPE) et de parole familière (NCCFr), dans lesquels la realisation de schwa est déterminée à partir d’un alignement automatique, ont été utilisés pour examiner la contribution du contexte au sein du mot contenant schwa (lexical) vs. au travers de la frontière avec le mot précédent (post-lexical). Nos résultats montrent l’importance du contexte pré-frontière dans l’explication de la chute du schwa dans la première syllabe d’un mot polysyllabique en parole spontanée. Si le mot précédant se termine par une consonne, nous pouvons faire appel à la loi des trois consonnes et au principe de sonorité pour expliquer des différences de comportement en fonction de la nature des consonnes en contact.
This paper presents the TYPALOC corpus of French Dysarthric and Healthy speech and the rationale underlying its constitution. The objective is to compare phonetic variation in the speech of dysarthric vs. healthy speakers in different speech conditions (read and unprepared speech). More precisely, we aim to compare the extent, types and location of phonetic variation within these different populations and speech conditions. The TYPALOC corpus is constituted of a selection of 28 dysarthric patients (three different pathologies) and of 12 healthy control speakers recorded while reading the same text and in a more natural continuous speech condition. Each audio signal has been segmented into Inter-Pausal Units. Then, the corpus has been manually transcribed and automatically aligned. The alignment has been corrected by an expert phonetician. Moreover, the corpus benefits from an automatic syllabification and an Automatic Detection of Acoustic Phone-Based Anomalies. Finally, in order to interpret phonetic variations due to pathologies, a perceptual evaluation of each patient has been conducted. Quantitative data are provided at the end of the paper.
This paper presents the rationale, objectives and advances of an on-going project (the DesPho-APaDy project funded by the French National Agency of Research) which aims to provide a systematic and quantified description of French dysarthric speech, over a large population of patients and three dysarthria types (related to the parkinson's disease, the Amyotrophic Lateral Sclerosis disease, and a pure cerebellar alteration). The two French corpora of dysarthric patients, from which the speech data have been selected for analysis purposes, are firstly described. Secondly, this paper discusses and outlines the requirement of a structured and organized computerized platform in order to store, organize and make accessible (for selected and protected usage) dysarthric speech corpora and associated patients clinical information (mostly disseminated in different locations: labs, hospitals, â¦). The design of both a computer database and a multi-field query interface is proposed for the clinical context. Finally, advances of the project related to the selection of the population used for the dysarthria analysis, the preprocessing of the speech files, their orthographic transcription and their automatic alignment are also presented.
Les nombreuses recherches portant sur le phénomène de la liaison en français ont pu mettre en évidence l’influence de divers paramètres linguistiques et para-linguistiques sur la réalisation des liaisons. Notre contribution vise à déterminer la contribution relative de certains de ces facteurs en tirant parti d’une méthodologie robuste ainsi que d’outils de traitement automatique du langage. A partir d’un corpus de 5h de parole produit par 10 locuteurs, nous étudions les effets du style de parole (lecture oralisée/parole spontanée), du débit de parole (lecture normale/rapide), ainsi que la contribution de facteurs syntaxiques et lexicaux (longueur et fréquence lexicale) sur la réalisation de la liaison. Les résultats montrent que si plusieurs facteurs étudiés prédisent certaines liaisons, ces facteurs sont souvent interdépendants et ne permettent pas de modéliser avec exactitude la réalisation des liaisons.