Actes des 35èmes Journées d'Études sur la Parole

Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier (Editors)

Anthology ID:: 2024.jeptalnrecital-jep
Month:: 7
Year:: 2024
Address:: Toulouse, France
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA and AFPC
URL:: https://aclanthology.org/2024.jeptalnrecital-jep
DOI:
Bib Export formats:: BibTeX

pdf bib abs
Autisme et compliance phonique
Eva Goeseels | Kathy Huet | Myriam Piccaluga | Virginie Roland | Véronique Delvaux

Cet article traite de la flexibilité phonétique, définie comme la capacité d’adapter son comportement de parole aux contraintes internes/externes au locuteur et qui pèsent sur la situation de communication. Les individus avec Trouble du Spectre de l’Autisme (TSA), de par leurs caractéristiques, constituent une population pertinente pour étudier la flexibilité phonétique. Cette étude compare la flexibilité phonétique chez des sujets neurotypiques (NT) et avec TSA francophones via un protocole de compliance phonique, nécessitant de devoir répéter des voyelles synthétiques non présentes dans le répertoire vocalique du français. Trois indices ont été calculés pour caractériser la compliance phonique et les résultats montrent des stratégies différentes dans les groupes NT vs. TSA. L’étude met en lumière la préservation possible des compétences sensori-motrices nécessaires à la flexibilité phonétique chez les personnes atteintes de TSA.

pdf bib abs
Caractérisation acoustique des réalisations approximantes du /v/ intervocalique en français spontané
Suyuan Dong | Nicolas Audibert

Les fricatives /v/ ont tendance à se réaliser comme une variante affaiblie en français spontané. Nous nous sommes appuyés sur les données du corpus NCCFr et avons évalué 5504 occurrences de /v/ intervocalique produites par 10 hommes et 10 femmes, à partir de l’inspection des spectrogrammes. Un ensemble de mesures acoustiques dynamiques ont été relevées sur chaque exemplaire, et comparées entre les deux types de réalisation (fricatives voisées et approximantes) par des modèles GAM pour prendre en compte leur évolution temporelle. Les résultats montrent une prépondérance des réalisations approximantes, également observables en positions accentuées, et indiquent que ces deux types de réalisation divergent tant au niveau temporel que spectral, particulièrement dans les hautes fréquences. La manifestation de cet affaiblissement varie également en fonction des locuteurs. Ces observations permettent de suggérer que le /v/ intervocalique serait sujet à un processus d’affaiblissement en cours, au-delà d’une simple réduction segmentale.

pdf abs
Comment l’oreille humaine perçoit-elle la somnolence dans la parole ? Une analyse rétrospective d’études perceptuelles.
Vincent P. Martin | Colleen Beaumard | Jean-Luc Rouas

La somnolence bénéficierait d’être mesurée dans des configurations écologiques, par exemple grâce à des enregistrements de parole. Pour évaluer la faisabilité de sa détection à partir de la parole par l’audition humaine, deux études perceptuelles précédentes ont produit des résultats contradictoires. Une façon de comprendre ce désaccord aurait pu être d’étudier sur quelles caractéristiques de la parole les annotateurs ont basé leur estimation, mais aucune étude n’a collecté cette information.Nous avons donc choisi d’extraire des descripteurs acoustiques des enregistrements annotés, et d’entraîner des modèles d’apprentissage automatique simples et explicables à reproduire l’annotation de chaque annotateur. Ensuite, nous mesurons la contribution de chaque caractéristique à la décision de chaque modèle, et identifions les plus importantes. Nous effectuons ensuite un regroupement hiérarchique pour dessiner les profils des annotateurs, en fonction des caractéristiques sur lesquelles ils s’appuient pour identifier la somnolence.

pdf abs
Disfluences en parole continue en français : paramètres prosodiques des répétitions
Ivana Didirková | Yaru Wu | Anne Catherine Simon

Cette étude s’intéresse aux caractéristiques acoustiques des répétitions à l’identique à travers différents genres de parole en français. Le corpus d’étude LOCAS-F inclut 42 échantillons de parole représentant 14 activités de parole (ou genres). Ces échantillons sont caractérisés en fonction du degré de préparation, d’interactivité, etc. Le nombre de fois que les éléments sont répétés ne variepas sensiblement en fonction du degré de préparation ou d’interactivité du discours. Du point de vue des durées, les résultats montrent que la durée totale des répétitions augmente avec le degré de préparation du discours. Cela vaut aussi pour la durée des séquences de répétitions avec les insertions. Du point de vue de la fréquence fondamentale, les écarts mélodiques au début d’une séquence de répétition sont plus étendus dans la parole spontanée (non préparée).

pdf abs
Effet de la tâche sur le débit articulatoire d’enfants et adolescents avec et sans trouble du spectre de l’autisme en français
Cwiosna Roques | Fanny Guitart-Ivent | Christelle Dodane | Fabrice Hirsch

Cette étude comparative propose d’observer le débit de parole de 8 enfants de 10 à 16 ans avec un trouble du spectre de l’autisme (TSA), et celui de 8 enfants tout-venants appariés, dans deux activités extraites du module 3 de l’ADOS-2, la première consistant à raconter une histoire à partir d’images puis de la mimer, la seconde, à parler librement sur le thème de l’amitié. Nos résultats montrent que les enfants avec TSA parlent plus lentement que les locuteurs contrôles appariés, dans les deux tâches et qu’ils parlent davantage entre deux pauses en parole libre qu’en description d’histoire.

pdf abs
Étude de la qualité vocale dans la parole professionnelle des aides-soignants français
Jean-Luc Rouas | Yaru Wu | Takaaki Shochi

Cet article présente une méthodologie complète pour étudier les attributs vocaux des aides-soignants travaillant dans des maisons de retraite en France. L’objectif était d’analyser les modèles de parole de 20 aides-soignants dans deux établissements distincts. Les aides-soignants ont été équipés de microphones-casque connectés à des smartphones pour garantir une qualité audio optimale. Les données enregistrées comprenaient la lecture de texte, des entretiens informels et des jeux de rôle professionnels avec des patients fictifs. Le traitement des données a été effectué à l’aide d’un système de reconnaissance automatique de la parole de pointe, permettant de générer des séquences de mots ou de phonèmes avec leurs frontières. L’analyse s’est concentrée sur la détection des variations de la qualité vocale dans divers contextes de parole spontanée. L’objectif final est le développement d’outils de formation automatisés pour les aides-soignants, afin de capturer et reproduire leurs caractéristiques vocales uniques, améliorant ainsi leurs capacités professionnelles.

En cancérologie ORL, le lien entre anatomie et déficit de parole est étroit en raison de l’impact de la pathologie et de son traitement sur les structures anatomiques en jeu dans la production de parole. Pourtant, les corrélations entre scores moteurs et évaluation perceptive restent faibles. L’utilisation de systèmes automatiques dédiés à la reconnaissance de phonèmes pourrait permettre d’obtenir de nouveaux résultats. L’objectif est d’étudier les liens entre scores moteurs et production phonémique via un système de reconnaissance automatique de phonèmes appliqué à une tâche de production de pseudo-mots. Après réalisation d’un inventaire phonémique par sujet, le taux d’occlusives reconnues est significativement plus faible en cas d’atteinte des structures. Certains mécanismes de compensation ont également pu être mis en évidence, notamment au niveau de la production de consonnes labiodentales, plus élevée en cas d’atteinte de la langue ou de la mâchoire.

pdf abs
Étude en temps réel de la fusion des /a/ ~ /ɑ/ en français depuis 1925
Juliusz Cęcelewski | Cédric Gendrot | Martine Adda-Decker | Philippe Boula de Mareüil

Cette étude explore la variation diachronique de la réalisation des voyelles /a/ ~ /ɑ/ du français en position finale de mot dans la parole déclamatoire/journalistique de 1925 à 2023. Nos données comprennent deux corpus préexistants – le corpus d’archives INA (1940–1997) et le corpus ESTER (2000–2004) – ainsi que deux nouveaux corpus composés d’enregistrements issus des Archives de la Parole d’Hubert Pernot (1925–1929), de Radio France et de YouTube (2020–2023).Nos résultats indiquent une postériorisation du /a/ vers une position plus centrale et, dans une moindre mesure, une antériorisations du /ɑ/, qui ont abouti à la neutralisation et la fusion acoustique des deux phonèmes au cours du XXe siècle. Les résultats sont discutés à la lumière de l’évolution globale du système des voyelles à double timbre en français.

pdf abs
Exploration de la représentation multidimensionnelle de paramètres acoustiques unidimensionnels de la parole extraits par des modèles profonds non supervisés.
Maxime Jacquelin | Maëva Garnier | Laurent Girin | Rémy Vincent | Olivier Perrotin

Cet article propose une méthodologie pour interpréter les dimensions de variation de la parole conversationnelle, extraites de façon non-supervisée, et sur des données multilocuteurs, par un algorithme d’apprentisage profond (Auto-Encodeur Variationnel). Par des analyses de corrélation et de similarité cosinus, nous montrons que la distribution de la fréquence fondamentale et de la fréquence centrale des trois premiers formants de l’ensemble d’apprentissage est encodée par une direction dédiée de l’espace latent. Lorsque la distribution est multimodale, les différents modes du paramètre acoustique sont encodés dans des dimensions distinctes. De plus, nous avons identifié les directions expliquant la variation des paramètres au sein de chaque mode, et entre eux.

pdf abs
Identification du locuteur : ouvrir la boîte noire
Carole Millot | Cédric Gendrot | Jean-François Bonastre

L’explicabilité des systèmes relevant du deep learning est devenue un enjeu central ces dernières années, dans le droit européen comme le domaine criminalistique. L’approche BA-LR introduit en identification du locuteur un nouveau paradigme de modélisation : elle fait émerger automatiquement les attributs partagés par un groupe de locuteurs et qui sous-entendent la discrimination de ceux-ci. Le score produit est décomposable au niveau des attributs, ce qui augmente significativement l’explicabilité de la méthode. Cette étude propose de compléter la caractérisation des attributs obtenus par le BA-LR, à l’aide de paramètres de qualité de voix. L’analyse suggère que plusieurs attributs utilisent les types de phonation pour regrouper les locuteurs, ceux-ci encodant des informations humainement perceptibles. Cet article pose ainsi des bases pour l’analyse acoustique des attributs, qui permettra à terme d’utiliser le BA-LR dans le cadre du profilage vocal.

pdf abs
Les représentations de locuteurs pour prédire l’intelligibilité de la parole lors de conversations médicales
Sebastiao Quintas | Mathieu Balaguer | Julie Mauclair | Virginie Woisard | Julien Pinquier

Dans le contexte des troubles de la parole, l’une des tâches du thérapeute est de définir l’intelligibilité de la parole du patient. Les systèmes automatiques peuvent aider dans cette tâche, mais dans la plupart des cas, ils sont entraînés dans des environnements spécifiques et contrôlés, avec des conditions propres qui ne reflètent pas un environnement médical. Dans cet article, nous développons un système automatique qui prédit l’intelligibilité de la parole à partir de données provennant de patients ayant un cancer de la tête et du cou obtenues dans des conditions cliniques. Ce système repose sur des représentations de locuteurs entraînées selon une méthodologie multi-tâches pour prédire simultanément l’intelligibilité de la parole et la sévérité des troubles de la parole. Il atteint une corrélation allant jusqu’à 0,891 pour une tâche de lecture. De plus, il affiche des résultats prometteurs sur de la parole spontanée, qui est une tâche plus écologique mais sous-étudiée et pourtant essentielle pour un déploiement direct d’un système automatique dans un environnement hospitalier.

pdf abs
Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage
Maxime Fily | Guillaume Wisniewski | Séverine Guillaume | Gilles Adda | Alexis Michaud

Nous explorons les représentations vectorielles de la parole à partir d’un modèle pré-entraîné pour déterminer leur niveau d’abstraction par rapport au signal audio. Nous proposons une nouvelle méthode non-supervisée exploitant des données audio ayant des métadonnées soigneusement organisées pour apporter un éclairage sur les informations présentes dans les représentations. Des tests ABX déterminent si les représentations obtenues via un modèle de parole multilingue encodent une caractéristique donnée. Trois expériences sont présentées, portant sur la qualité acoustique de la pièce, le type de discours, ou le contenu phonétique. Les résultats confirment que les différences au niveau de caractéristiques linguistiques/extra-linguistiques d’enregistrements audio sont reflétées dans les représentations de ceux-ci. Plus la quantité d’audio par vecteur est importante, mieux elle permet de distinguer les caractéristiques extra-linguistiques. Plus elle est faible, et mieux nous pouvons distinguer les informations d’ordre phonétique/segmental. La méthode proposée ouvre de nouvelles pistes pour la recherche et les travaux comparatifs sur les langues peu dotées.

pdf abs
Perception et production des clusters en position initiale par des sinophones : le rôle du Principe de Sonorité Séquentielle
Xuejing Chen | Pierre André Hallé | Rachid Ridouane

Dans deux expériences avec des sujets sinophones, nous avons examiné le rôle du Principe de Sonorité Séquentielle (PSS) dans la perception et la production des clusters en position initiale. Dans la première expérience, nous avons évalué la discrimination de contrastes C1C2-C1C2 avec 3 types de profil de sonoritéC1C2 : montant, plateau, descendant. Nos résultats montrent que les C1C2 moins marqués selon le PSS induisent une meilleure discrimination, attribuable à une réparation perceptive moindre pour ce type de séquences. Ces résultats sont en accord avec les résultats de l’expérience d’imitation où la production d’éléments vocaliques est moins fréquente pour les C1C2 moins marqués. L’effet induit par le PSS est plus important en production qu’en perception, suggérant un effet indépendant du PSS en production. Par ailleurs, les propriétés acoustiques des éléments vocaliques produits suggèrent qu’ils sont d’autant plus ciblés que les clusters à imiter sont marqués.

La perte d’intelligibilité constitue une plainte récurrente des patients traités pour un cancer de la cavité buccale ou de l’oropharynx. La notion d’intelligibilité par son aspect multifactorielle est complexe à définir, mais aussi, par extension, à évaluer avec précision. Les différents matériaux utilisés dans ces évaluations sont connus pour montrer des effets d’apprentissages imputables aux listes d’items courtes et fermées, présentes dans les batteries de tests classiques. Dans cette étude, nous évaluons l’effet d’apprentissage du matériel linguistique en comparant l’évolution des scores d’intelligibilité calculés à partir de la transcription de mots et de pseudo-mots, présentés en proportion équivalente, soit la répétition de 50 mots vs de 52 pseudo-mots. Nos résultats montrent un effet d’apprentissage des pseudo-mots lorsqu’ils sont répétés, dans les mêmes proportions que celui observé sur les mots. Ainsi, c’est la quantité de pseudo-mots qui permet de neutraliser l’effet d’apprentissage du matériel linguistique dans une évaluation de l’intelligibilité.

pdf abs
Peut-on marquer un focus contrastif par le geste manuel en suppléance vocale ?
Delphine Charuau | Nathalie Henrich Bernardoni | Silvain Gerber | Olivier Perrotin

Un paradigme expérimental élicitant la focalisation sur une syllabe a été élaboré dans une tâche de conversion chuchotement-parole avec contrôle manuel de l’intonation. Deux interfaces de contrôle intonatif ont été testées : contrôle isométrique par pression du doigt et isotonique par rotation du poignet. La réalisation de la focalisation par le geste a été observée, démontrant un transfert du contrôle naturel vers manuel de l’intonation. Les résultats sont également discutés en fonction de la position de la syllabe dans l’énoncé, et en fonction de l’interface de contrôle gestuel employée.

pdf abs
Réductions temporelles en français parlé : Où peut-on trouver les zones de réduction ?
Yaru Wu | Kim Gerdes | Martine Adda-Decker

Cet article examine la réduction dans la parole continue en français, ainsi que les différents facteurs qui contribuent au phénomène, tels que le style de parole, le débit de parole, la catégorie de mots, la position du phone dans le mot et la position du mot dans les groupes syntaxiques. L’étude utilise trois corpus de parole continue en français, couvrant la parole formelle, la parole moins formelle et la parole familière. La méthode utilisée comprend l’alignement forcé et l’étiquetage automatique des zones de réduction. Les résultats suggèrent que la réduction de la parole est présente dans tous les styles de parole, mais moins fréquente dans la parole formelle, et que la réduction est plus susceptible d’être observée dans les énoncés de parole avec un taux de parole élevé. La position médiane des mots ou des groupes syntaxiques tend à favoriser la réduction.

pdf abs
Représentation de la parole multilingue par apprentissage auto-supervisé dans un contexte subsaharien
Antoine Caubrière | Elodie Gauthier

Les approches auto-supervisées ont conduit à des avancées majeures dans le domaine de l’apprentissage profond. Par l’exploitation d’une grande quantité de données non annotées, ces approches ont notamment permis des améliorations dans des contextes peu dotés. Toutefois, les langues africaines restent majoritairement sous-représentées dans les jeux de données de préentraînement publiquement distribués. Dans ces travaux, nous préentraînons des modèles de parole auto-supervisés multilingues à partir de langues subsahariennes exclusivement. Nous étudions la pertinence des représentations apprises sur la tâche de reconnaissance de parole, en utilisant le jeu d’évaluation FLEURS-102. Notre modèle HuBERT Base obtient des résultats similaires face à l’approche multilingue w2v-bert de FLEURS, tout en étant plus efficient, avec 6 fois moins de paramètres et 7 fois moins de données. Nous présentont aussi un second modèle exploitant une sous-sélection équilibrée des données initiales, obtenant des performances compétitives avec près de 80 fois moins de données de préentraînement.

pdf abs
Retour auditif interne de la production de parole : mesures préliminaires de la vibration osseuse par accélérométrie et comparaison au son aérien
Raphael Vancheri | Coriandre Vilain | Nathalie Henrich-Bernardoni | Pierre Baraduc

Lorsqu’on parle, le retour auditif se décompose en une voie aérienne et une voie interne ou ‘par conduction osseuse’. Un locuteur entend les deux composantes, contrairement au récepteur. Alors que la moitié du signal cochléaire est interne, on connaît mal l’information qu’il véhicule et comment elle impacte le contrôle moteur oral. Dans cette étude, nous considérons deux indicateurs du signal auditif interne pendant la production de parole, la vibration des dents de la mâchoire supérieure et le son enregistré près du tympan. Une méthode de conversion de voix nous permet d’évaluer les différences informationnelles entre voix aérienne et voix ”osseuse” interne. Comme observé précédemment par la simple méthode péritympanique, la somme des retours acoustiques aérien et interne amène une lisibilité supérieure des trajectoires formantiques qui pourrait faciliter le contrôle de la production de parole.

pdf abs
Synthèse de gestes communicatifs via STARGATE
Louis Abel | Vincent Colotte | Slim Ouni

La synthèse de gestes lié à la parole est un domaine de recherche en pleine expansion. Cependant, les nouveaux systèmes utilisent souvent des architectures complexes, les rendant souvent inadaptés à leur utilisation dans des agents conversationnels incarnés ou dans d’autres domaines de recherche comme la linguistique, où le lien entre la parole et les gestes est difficile à étudier manuellement. Cet article présente STARGATE, une nouvelle architecture tirant parti de l’autorégression pour fournir des capacités en temps réel, mais aussi des convolutions de graphe couplées à l’attention pour incorporer des connaissances structurelles explicites et permettre une forte compréhension spatiale et temporelle du geste. Nous avons démontré que notre modèle est capable de générer des gestes convaincants en surpassant l’état de l’art dans une étude quantitative, tout en obtenant des scores légèrement meilleurs en termes de cohérence et de crédibilité des gestes générés liés à la parole sur une étude perceptive.

pdf abs
Un paradigme pour l’interprétation des métriques et pour mesurer la gravité des erreurs de reconnaissance automatique de la parole
Thibault Batextasciitilde neras Roux | Mickael Rouvier | Jane Wottawa | Richard Dufour

Les mesures couramment employées pour l’évaluation des transcriptions automatiques de la parole, telles que le taux d’erreur-mot (WER) et le taux d’erreur-caractère (CER), ont fait l’objet d’importantes critiques en raison de leur corrélation limitée avec la perception humaine et de leur incapacité à prendre en compte les nuances linguistiques et sémantiques. Bien que des métriques fondées sur les plongements sémantiques aient été introduites pour se rapprocher de la perception humaine, leur interprétabilité reste difficile par rapport au WER et CER. Dans cet article, nous surmontons ce problème en introduisant un paradigme qui intègre une métrique choisie pour obtenir un équivalent du taux d’erreur appelé Distance d’Édition Minimale, ou Minimum Edit Distance (minED). Nous proposons également d’utiliser cette approche pour mesurer la gravité des erreurs en fonction d’une métrique, d’un point de vue intrinsèque et extrinsèque.

pdf abs
Un système d’annotation automatique de la structure prosodique
Philippe Martin

On présente un système d’annotation prosodique permettant de visualiser les structures prosodiques générées par des règles de dépendance appliquées sur des événements prosodiques annotés automatiquement. Les événements prosodiques sont définis par des cibles tonales dans la notation ToBI, ou par des contours mélodiques, montants ou descendants, atteignant la hauteur la plus basse ou la plus haute de la phrase, et au-dessus ou au-dessous du seuil de glissando (c’est-à-dire perçus comme un changement mélodique ou un ton statique), mais d’autres définitions peuvent être utilisées au gré de l’utilisateur. À partir de ces définitions, les contours ou les cibles tonales alignés sur les voyelles des syllabes accentuées localisées sont affichés automatiquement. Des règles de dépendance définies par l’utilisateur opèrent sur ces évènements prosodiques pour déterminer et afficher la structure prosodique correspondante, permettant une comparaison visuelle avec la structure morphosyntaxique et conduisant à une meilleure compréhension de la manière dont les structures prosodiques peuvent amorcer le décodage syntaxique par l’auditeur.

pdf abs
Une comparaison de l’intonation ironique en français et en mandarin
Ziqi Zhou | Jalal Al-Tamimi | Hiyon Yoo

L’utilisation de corrélats acoustiques dans la production de l’ironie a été bien documentée. Cependant, dans quelle mesure les résultats sont comparables dans différentes langues reste une question inexplorée. Cette étude vise à réaliser une comparaison des patrons tonaux de l’ironie entre le français et le mandarin, en utilisant un protocole expérimental unifié. Une expérience de production a été menée pour susciter l’énoncé ironique. Les résultats ont d’abord été analysés par forêts aléatoires pour explorer le poids relatif de huit corrélats acoustiques comme marqueur de l’ironie. Ensuite, des modèles linéaires à effets mixtes (LMM) ont été utilisés pour explorer davantage les principaux corrélats acoustiques. Nos résultats ont confirmé que le patron tonal de l’ironie est spécifique à chaque langue, révélant des schémas différents de corrélats acoustiques utilisés pour produire l’ironie en français et en mandarin. De plus, un effet de genre sur l’énoncé ironique en français a été identifié.

pdf abs
Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques
Lila Kim | Cedric Gendrot

L’apprentissage auto-supervisé, particulièrement dans le contexte de la parole, a démontré son efficacité dans diverses tâches telles que la reconnaissance du locuteur et la reconnaissance de la parole. Notre question de recherche se concentre sur l’efficacité des représentations vectorielles - extraites de phonèmes - plus courtes par rapport à des séquences plus longues dans la détection de la nasalité. Deux approches distinctes ont été étudiées : extraire des vecteurs sur la durée du phonème et prendre des séquences plus longues avec une seconde ajoutée de chaque côté du phonème, puis récupérer la partie centrale a posteriori. Les résultats révèlent que les modèles réagissent différemment selon les phones et les locuteurs, avec une variabilité observée à ces niveaux. Le modèle à séquences longues surpasse le modèle à séquences courtes en assurant une corrélation plus robuste avec le débit d’air nasal.

pdf abs
Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d’enfant
Lucas Block Medin | Lucile Gelin | Thomas Pellegrini

La reconnaissance de parole d’enfant est un domaine de recherche encore peu développé en raison du manque de données et des difficultés caractéristiques de cette tâche. Après avoir exploré diverses architectures pour la RAP d’enfant dans de précédents travaux, nous nous attaquons dans cet article aux nouveaux modèles auto-supervisés. Nous comparons d’abord plusieurs modèles Wav2vec2, HuBERT et WavLM adaptés superficiellement à la reconnaissance de phonèmes sur parole d’enfant, et poursuivons nos expériences avec le meilleur d’entre eux, un WavLM base+. Il est ensuite adapté plus profondément en dégelant ses blocs transformer lors de l’entraînement sur parole d’enfant, ce qui améliore grandement ses performances et le fait surpasser significativement notre modèle de base, un Transformer+CTC. Enfin, nous étudions en détail les comportements de ces deux modèles en conditions réelles de notre application, et montrons que WavLM base+ est plus robuste à diverses tâches de lecture et niveaux de bruit.

pdf abs
Allongement vocalique en italien L2 et en français L2 : une marque de focalisation ?
Bianca Maria De Paolis

Notre étude explore le rôle de la durée vocalique comme indice de focalisation, à la fois en italien et en français, tant pour les locuteurs natifs que pour les apprenants L2. Nous visons à décrire l’influence potentielle de la L1 sur la L2 concernant cet indice. L’analyse porte sur la parole élicitée de 60 participants, répartis en quatre groupes : 15 italophones natifs, 15 francophones natifs, 15 apprenants francophones d’italien L2 et 15 apprenants italophones de français L2. Les locuteurs ont produit le même constituant cible en quatre conditions informationnelles : background, focalisation large,focalisation étroite identificative, focalisation étroite corrective. Les résultats montrent une influence du contexte informationnel sur la durée des voyelles accentuées chez les natifs italophones, mais pas chez les natifs français. Cette divergence se reflète chez les apprenants : les apprenants italophones de français ajustent la durée des voyelles accentuée selon la condition informationnelle, tandis que les francophones apprenant l’italien ne le font pas. Nous discutons ces résultats en lien avec d’autres marqueurs prosodiques et syntaxiques de focus, en tenant compte des différences typologiques entre l’italien et le français et des théories sur l’acquisition de la prosodie en L2.

pdf abs
Analyse Factorielle de signaux sonores : développement d’une méthode automatique de détermination des frontières optimales entre canaux de fréquence
Agnieszka Duniec | Elisabeth Delais-Roussarie | Olivier Crouzet

Des études récentes supportent l’hypothèse d’une relation entre les propriétés statistiques des signaux de parole et les mécanismes perceptifs : les gammes de fréquence présentant une corrélation dans leurs modulations d’amplitude pourraient être associées à des frontières spectrales relativement stables envisagées comme optimales sur le plan perceptif. Cependant, des limites afférentes à ces études antérieures ressortent : (1) elles se fondent pour la plupart sur des critères subjectifs à travers l’observation visuelle des courbes de résultats statistiques, et (2) elles n’envisagent pas que les résultats puissent varier en fonction des échantillons de données sélectionnés, de la nature des signaux utilisés, ou de la taille des échantillons. Même si cette position peut être argumentée en lien avec l’approche du codage efficace, cet aspect afférent au degré de variation potentiel nécessite d’être évalué. Nous avons mis en place une méthode de détermination automatique des frontières qui permet de répliquer les travaux antérieurs en introduisant une évaluation expérimentale de ces limites et discutons de quelques résultats préliminaires en comparaison avec les études précédentes.

pdf abs
Apprentissage profond pour l’analyse de la parole pathologique : étude comparative entre modèles CNN et à base de transformers
Malo Maisonneuve | Corinne Fredouille | Muriel Lalain | Alain Ghio | Virginie Woisard

Les cancers des voies aérodigestives supérieures (VADS) ont un impact significatif sur la capacité des patients à s’exprimer, ce qui affecte leur qualité de vie. Les évaluations actuelles de la parole pathologique sont subjectives, justifiant le besoin de méthodes automatiques et objectives. Un modèle auto-supervisé basé sur Wav2Vec2 est proposé pour la classification de phonèmes chez les patients atteints de cancer des VADS, visant une amélioration des taux de bonne classification et une meilleure discrimination des caractéristiques phonétiques. Les impacts des paramètres d’affinage, des données de pré-entraînement, de la taille du modèle et des données d’affinage sont explorés. Nos résultats montrent que l’architecture Wav2Vec2 surpasse une approche basée sur un CNN, et montre une corrélation significative avec les mesures perceptives. Ce travail ouvre la voie à une meilleure compréhension de la parole pathologique, via une représentation auto-apprise de la parole, très pertinente pour des approches d’interprétation à destination des cliniciens.

pdf abs
Audiocite.net un grand corpus d’enregistrements vocaux de lecture en français
Soline Felice | Solène Evain | Solange Rossato | François Portet

L’arrivée de l’apprentissage auto-supervisé dans le domaine du traitement automatique de la parole a permis l’utilisation de grands corpus non étiquetés pour obtenir des modèles pré-appris utilisés comme encodeurs des signaux de parole pour de nombreuses tâches. Toutefois, l’application de ces méthodes de SSL sur des langues telles que le français s’est montrée difficile due à la quantité limitée de corpus de parole du français publiquement accessible. C’est dans cet objectif que nous présentons le corpus Audiocite.net comprenant 6682 heures d’enregistrements de lecture par 130 locuteurs et locutrices. Ce corpus est construit à partir de livres audio provenant du site audiocite.net. En plus de décrire le processus de création et les statistiques obtenues, nous montrons également l’impact de ce corpus sur les modèles du projet LeBenchmark dans leurs versions 14k pour des tâches de traitement automatique de la parole.

pdf abs
Comparaison de mesures pour la détection automatique de déviance dans la dysarthrie ataxique
Natacha Miniconi | Cédric Gendrot | Angélina Bourbon | Leonardo Lancia | Cécile Fougeron

Cette étude explore l’utilisation d’un Réseau de Neurones Convolutifs (CNN) pour distinguer la parole de patients dysarthriques ataxiques de celle de locuteurs neurotypiques, en utilisant diverses entrées. L’objectif est d’extraire automatiquement des informations pertinentes sur les troubles de la parole. Le CNN est utilisé pour exploiter les caractéristiques temporelles et spectrales des signaux de parole via des spectrogrammes, des trajectoires de formants et des courbes de modulation cepstrale. Comparé à un Multi-Layer Perceptron (MLP) alimenté par des mesures acoustico-phonétiques ciblées sur la modulation cepstrale, le CNN présente de meilleurs scores de classification dans la distinction entre dysarthrie et non dysarthrie, en particulier avec la modulation cepstrale. La population CTRL obtient de meilleurs taux de classification que la population SCA avec un MLP, alors qu’on on observe l’inverse avec un CNN.

pdf abs
Création d’un corpus parallèle de styles de parole en mandarin via l’auto-transcription et l’alignement forcé
Jingyi Sun | Yaru Wu | Nicolas Audibert | Martine Adda-Decker

La technologie ASR excelle dans la transcription précise des discours lus préparés, mais elle rencontre encore des défis lorsqu’il s’agit de conversations spontanées. Cela est en partie dû au fait que ces dernières relèvent d’un registre de langage informel, avec disfluences et réductions de parole. Afin de mieux comprendre les différences de production en fonction des styles de parole, nous présentons la création d’un corpus de parole conversationnelle, dont des extraits sont ensuite lus par leurs auteurs. Le corpus comprend 36 heures de parole en chinois mandarin avec leur transcription, réparties entre conversations spontanées et lecture. Nous avons utilisé WHISPER pour la transcription automatique de la parole et le Montreal Forced Aligner pour l’alignement forcé, résultant dans un corpus de parole transcrit avec annotations multi-niveaux incluant phonèmes, caractères/syllabes et mots. De telles productions de parole parallèles (en modes spontané et lu) seront particulièrement intéressantes pour l’étude des réductions temporelles.

Les plosives, généralement accompagnées d’un burst (relâchement audible) après la phase d’occlusion, sont néanmoins produites sans burst dans certaines langues d’Asie comme le thaï. Cette absence de bruit est attribuée au non relâchement brusque des articulateurs et est observée exclusivement lorsque les plosives sont en finale de syllabe, jamais en initiale. Nous formulons l’hypothèse qu’un mouvement d’abaissement du larynx pourrait provoquer une diminution de la pression intraorale pendant la tenue de l’occlusion induisant le non-relâchement articulatoire. Nous avons examiné le mouvement vertical du larynx chez deux locutrices natives lors de la production des plosives /p, t, k/ dans une tâche de lecture d’une liste de pseudo-mots de structure CVC. Les résultats montrent une grande variabilité dans le mouvement d’abaissement du larynx en fonction des segments consonantiques, vocaliques et du contexte tonal, suggérant que plusieurs facteurs pourraient être impliqués dans l’explication de la diminution de la pression intraorale.

pdf abs
Détection automatique des schwas en français - Application à la détection des troubles du sommeil
Colleen Beaumard | Vincent P. Martin | Yaru Wu | Jean-Luc Rouas | Pierre Philip

La Somnolence Diurne Excessive affecte négativement les individus et est un problème de santé publique. L’analyse de la parole pourrait aider les cliniciens à la surveiller. Nous nous sommes concentrés sur la détection du schwa /@/ et avons trouvé un lien entre le nombre d’occurrences annoté manuellement et le niveau de somnolence des patients hypersomnolents d’un sous-ensemble du corpus TILE. Dans un second temps, afin de pouvoir généraliser ces résultats à l’intégralité du corpus, nous avons conçu un système de détection des schwas, robuste à la somnolence. Dans un troisième temps, nous avons étendu notre analyse à deux autres phonèmes supplémentaire /ø/ et /oe/. Nous avons ainsi observé une relation significative entre /ø/ et la combinaison des trois phonèmes et la somnolence subjective à court terme.

pdf abs
Effet du vieillissement sur l’anticipation d’arrondissement intra-syllabique en français
Louise Wohmann-Bruzzo | Cecile Fougeron | Nicolas Audibert

Cette étude examine l’évolution de l’anticipation d’arrondissement intra-syllabique en fonction de l’âge, en se basant sur les travaux précédents de D’Alessandro et Fougeron (2021), qui montre une diminution de la coarticulation inter-syllabique chez les personnes âgées. Nous avons analysé acoustiquement les syllabes /sy/ et /si/ de 40 locuteurs français répartis en deux groupes : 20 jeunes adultes (23-34 ans) et 20 personnes âgées (72-86 ans). Nos résultats montrent une diminution significative de l’anticipation d’arrondissement chez les âgés, indépendante d’une diminution de débit articulatoire. Moins de coarticulation au sein d’une même syllabe ne peut pas s’expliquer par un encodage syllabe par syllabe, comme pouvait l’être la diminution de coarticulation entre syllabe. Nous avançons donc que cette diminution globale de la co-articulation reflète un changement de paramétrisation de la parole chez les personnes âgées limitant le chevauchement entre gestes articulatoires et garantissant l’atteinte des cibles articulatoires successives.

pdf abs
Effets du shadowing et de l’imitation en tant que méthodes d’entraînement à la prononciation du /ɥi/ en français
Wenxun Fu | Martine Adda-Decker | Barbara Kühnert

Trente étudiantes mandarines apprenant le français ont participé à un entraînement autonome de quatre semaines, utilisant l’imitation tardive et le shadowing (répétition immédiate). Cette étude se concentre sur le résultat de la réalisation du /i/ dans /ɥi/, souvent réalisé proche du /y/. Les posttests montrent des améliorations dans la perception et la production de /ɥi/. Pour les apprenants de niveaux intermédiaires ayant pratiqué le shadowing, la distinction entre le troisième formant (F3) et le deuxième formant (F2) du /i/ dans /ɥi/ est significativement plus élevé après l’entraînement, indiquant une meilleure distinction avec /y/. Le shadowing semble efficace dans l’amélioration de la perception chez les débutants et apprenants intermédiaires, mais uniquement dans la production pour les niveaux intermédiaires. Nous suggérons que le shadowing, en tant que méthode hautement cognitive et active, puisse servir d’alternative à la méthode d’imitation, sous réserve que la compétence linguistique des apprenants leur permette d’accomplir la tâche avec succès.

Peut-on enseigner l’intonation française en classe avec une synthèse vocale contrôlée gestuellement sur une tablette ? La fréquence fondamentale et la durée de quatre phrases déclaratives, quatre questions polaires, quatre énoncés exprimant l’incrédulité (1 à 4 syllabes) de deux apprenantes ukrainiennes débutantes en français ont été comparées avant et après quatre entraînements hebdomadaires. Les apprenantes devaient écouter un enregistrement de référence, puis visualiser le modèle sur la tablette, tracer l’intonation manuellement, écouter le résultat synthétisé, et tracer et écouter leur tracé sans guide. Elles produisaient initialement des phrases déclaratives avec une intonation ascendante, et ont différencié les déclarations et les questions polaires après l’entraînement. L’expression de l’incrédulité s’est améliorée pour l’une. L’autre a montré quelques difficultés à maîtriser cette technologie. Cette première étude de cas utilisant la synthèse vocale contrôlée gestuellement est une approche prometteuse permettant plus de pratique de l’intonation en classe.

pdf abs
Entraînement de la coordination respiration-parole en apprentissage de la lecture assistée par ordinateur
Delphine Charuau | Andrea Briglia | Erika Godde | Gérard Bailly

Cette étude vise d’une part, à identifier les indices respiratoires pouvant être considérés comme la signature de l’amélioration de la fluence, et d’autre part, à examiner les effets de l’entraînement de lecture assistée par ordinateur sur la progression de la coordination respiration/parole. 66 élèves (CE2-CM2) ont été répartis en trois groupes selon le mode d’entraînement suivi : contrôle, entraînement avec surlignage par mot et entraînement avec surlignage par groupe de souffle. Tous ont été enregistrés avant (pré-test) et après trois semaines d’entraînement de lecture assistée (post-test) lors de la lecture d’un texte entraîné et d’un autre non-entraîné. Les résultats indiquent que la planification respiratoire et la gestion des pauses est améliorée sur un texte entraîné. Toutefois, il n’y a pas de transfert significatif de ces améliorations sur le texte non-entraîné.

pdf abs
Erreurs de prononciation en L2 : comparaison de méthodes pour la détection et le diagnostic guidés par la didactique
Romain Contrain | Julien Pinquier | Lionel Fontan | Isabelle Ferrané

La détection et diagnostic d’erreurs de prononciation nécessite des systèmes adaptés aux spécificités de la parole non-native. Élaborer de tels systèmes reste difficile à cause de la rareté des corpus dédiés incluant des annotations expertes. Dans cet article, nous proposons et comparons deux approches, l’une basée sur une transcription phonétique et l’autre sur l’alignement de signaux audio, élaborées dans le but de servir dans un programme d’entraînement à la prononciation assisté par ordinateur (EPAO). Nous les évaluons sur un corpus de parole non-native annoté selon des considérations didactiques, et nous trouvons que l’approche basée sur l’alignement a des propriétés préférables pour l’EPAO, dépassant la précision de l’autre approche de 31,1 et 3,8 en absolu sur deux erreurs communes des apprenants japonais du français.

Cette étude analyse l’articulation des allophones clairs et sombres du /l/ de l’anglais par trois locuteurs francophones et une locutrice native d’anglais britannique. Nous examinons en imagerie par résonance magnétique si les apprenants développent un /l/ sombre (absent du français), avec plus de rétraction en coda qu’en attaque comme attendu en anglais standard. Nous mesurons également si les apprenants acquièrent la corrélation observée chez les natifs entre longueur de la rime et degré de rétraction du /l/sombre. L’effet de l’antériorité théorique et empirique de la voyelle est aussi analysé. Nos résultats indiquent que les participants ont acquis la distribution allophonique attendue avec une influence de l’antériorité, mais pas de la longueur de la voyelle. Notre étude contribue ainsi à caractériser les gestes articulatoires complexes acquis par des apprenants avancés de l’anglais à travers une technique d’imagerie permettant de visualiser l’intégralité des zones articulatoires pertinentes pour le /l/ de l’anglais.

La perte d’intelligibilité chez des patients atteints de troubles de la production de la parole est un élément important du bilan orthophonique. Nous proposons un test fondé sur des séquences délexicalisées de type Voyelle-Consonne-Voyelle ainsi que sur des voyelles isolées extraites automatiquement d’un corpus de lecture. 12 locuteurs contrôles et 30 patients atteints de la maladie de Parkinson ont participé à l’expérience. Pour chaque locuteur, nous avons extrait automatiquement 50 séquences VCV et 50 voyelles isolées qui ont été soumises à l’identification par des auditeurs. La mesure de l’intelligibilité est fondée sur le comptage du nombre de traits phonémiques mal perçus par les auditeurs (Perceived Phonological Deviation = PPD). Nos résultats montrent une différence significative entre le groupe contrôle et les patients. Nous n’observons aucun effet lié au traitement dopaminergique. En revanche, nous observons une augmentation du PPD en fonction de la sévérité de la dysarthrie évaluée cliniquement par le neurologue.

pdf abs
Évaluation perceptive de l’anticipation de la prise de parole lors d’interactions dialogiques en français
Rémi Uro | Albert Rilliard | David Doukhan | Marie Tahon | Antoine Laurent

Cette étude présente un test perceptif évaluant les indices permettant la planification de la prise de parole lors d’interactions orales spontanées. Des Unités Inter-Pauses (IPU) ont été extraites de dialogues du corpus REPERE et annotées en terminalité. Afin de déterminer quels paramètres affectent les jugements de la possibilité de prendre la parole, les stimulus ont été présentés sous forme audio ou textuelle.Les participant·es devaient indiquer la possibilité de prendre la parole «~Maintenant~», «~Bientôt~» ou «~Pas encore~», à la fin des IPU tronqués de 0 à 3 mots prosodiques. Les participant·es sont moins susceptibles de prendre la parole pour les frontières non terminales en modalité audio que textuelle. La modalité audio permet également d’anticiper une fin de tour de parole au moins trois mots avant sa fin, tandis que la modalité textuelle permet moins d’anticipation. Ces résultats soutiennent l’importance des indices contenus dans la parole pour la planification des interactions dialogiques.

pdf abs
Frontières entre la perception de la voix normophonique et pathologique chez des auditeurs naïfs
Amelia Pettirossi | Nicolas Audibert | Lise Crevier-Buchman

Nous étudions l’hétéroévaluation de la qualité de voix chez une population de femmes francophones comprenant des professionnelles de la voix et des patientes recrutées lors d’une consultation de phoniatrie. Des extraits de parole ont été évalués par un expert à l’aide du GRBAS et par deux groupes de 30 et 40 auditeurs naïfs avec des protocoles perceptifs destinés à évaluer la qualité de voix globale. Ces évaluations ont été mises en correspondance afin d’observer de potentielles corrélations entre la perception de la pathologie vocale chez les auditeurs naïfs et les paramètres du GRBAS expert. Les voix perçues comme plus pathologiques par les auditeurs naïfs sont bien associées à un grade global plus élevé, avec une influence prépondérante de la sévérité du serrage vocal. Les indices de raucité et de souffle sont moins liés à la perception par les naïfs des voix comme pathologiques.

pdf abs
Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole
Ryan Whetten | Titouan Parcollet | Marco Dinarelli | Yannick Estève

L’apprentissage auto-supervisé (SSL) a fait ses preuves pour le traitement automatique de la parole mais est généralement très consommateur de données, de mémoire et de ressources matérielles. L’approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L’article original de Google qui introduit BEST-RQ manque de détails, comme le nombre d’heures de GPU/TPU utilisées pour le pré-entraînement et il n’existe pas d’implémentation open-source facile à utiliser. De plus, BEST-RQ n’a pas été évalué sur d’autres tâches que la RAP et la traduction de la parole. Dans cet article, nous décrivons notre implémentation open-source de BEST-RQ et réalisons une première étude en le comparant à wav2vec 2.0 sur quatre tâches. Nous montrons que BERT-RQ peut atteindre des performances similaires à celles de wav2vec 2.0 tout en réduisant le temps d’apprentissage d’un facteur supérieur à deux.

pdf abs
L’impact du style de parole sur l’opposition de longueur des voyelles en arabe jordanien
Mohammad Abuoudeh | Jalal Al-Tamimi | Olivier Crouzet

Cette étude examine l’impact des changements pouvant se produire dans deux styles de parole – lire vs. raconter une histoire – sur les informations spectrales et temporelles des voyelles longues et brèves en arabe jordanien. La lecture d’un texte est souvent considérée comme de la parole formelle ou soutenue, alors que la narration est plus spontanée. Le passage d’un style à l’autre peut engendrer des changements temporels et spectraux. C’est pourquoi un intérêt particulier a été porté au comportement des voyelles longues et brèves face à ces deux types de situations. Dix locuteurs de l’arabe jordanien ont lu puis raconté une histoire. Contrairement à ce qui était attendu, les caractéristiques spectrales et temporelles des voyelles n’ont pas été influencées par le changement de style. Cela suppose que dans cette expérience, le passage d’un style à l’autre a eu peu de conséquences sur la qualité et la quantité vocaliques. Cependant, les conditions comparées pourraient ne pas être suffisamment contrastées pour faire ressortir de telles différences. Les autres composantes du corpus en cours de constitution pourraient fournir des conditions plus à même de distinguer différents styles de parole.

pdf abs
La reconnaissance automatique de phonèmes est-elle réellement adaptée pour l’analyse de la parole spontanée ?
Vincent P. Martin | Colleen Beaumard | Charles Brazier | Jean-Luc Rouas | Yaru Wu

La transcription phonémique automatique de la parole spontanée trouve des applications variées, notamment dans l’éducation et la surveillance de la santé. Ces transcriptions sont habituellement évaluées soit par la précision de l’identification des phonèmes, soit par leur segmentation temporelle. Jusqu’à présent, aucun système n’a été évalué simultanément sur ces deux tâches. Cet article présente l’évaluation d’un système de transcription phonétique du français spontané (corpus Rhapsodie) basé sur Kaldi. Ce système montre de bons résultats en identification des phonèmes et de leurs catégories, avec des taux d’erreur de 19,2 et 13,4 respectivement. Il est cependant moins performant en segmentation, manquant en moyenne 40 de la durée des phonèmes et 34 des catégories. Les performances s’améliorent avec le niveau de planification de la parole. Ces résultats soulignent le besoin de systèmes de transcription phonétique automatique fiables, nécessaires à des analyses plus approfondies de la parole spontanée.

pdf abs
La sonorité n’est pas l’intensité: le cas des diphtongues dans une langue tonale
Yunzhuo Xiang | Jiayin Gao | Cédric Gendrot

Cette étude explore le lien entre la sonorité et l’intensité dans la production des diphtongues ouvrantes et fermantes en mandarin de Pékin. Étant donné qu’une voyelle ouverte est considérée comme plus sonore qu’une voyelle fermée, nous nous attendons à constater une augmentation d’intensité dans une diphtongue ouvrante et une diminution d’intensité dans une diphtongue fermante. Or, nos résultats, basés sur les modèles GAMM (modèles additifs généralisés à l’effet mixte) révèlent un pattern différent de nos attentes : la dynamique d’intensité au sein de la diphtongue n’est pas liée à l’aperture vocalique. En revanche, conformément aux études précédentes, nous trouvons une corrélation positive entre la F0 et l’intensité. Nous interrogeons ainsi sur la validité de définir la sonorité à base de l’intensité seule. Enfin, nous discutons du rôle de la F0 dans la définition de la sonorité et l’apport de notre étude pour modéliser la sonorité dans une langue tonale.

pdf abs
Le /r/ du mandarin est-il une fricative plutôt qu’une liquide ?
Yezhou Jiang | Rachid Ridouane | Pierre André Hallé

Cette étude contribue au débat sur la nature phonologique de la consonne du mandarin notée <r> en pinyin : liquide ou obstruante ? /r/ ou /ʐ/ ? Nous savons que les clusters C1C2 sont d’autant plus sujets à la réparation perceptive C1C2 > C1C2 que le profil de sonorité de C1C2 est marqué : pour C1=occlusive, nous devrions observer davantage de réparations lorsque C2 = /s/ que lorsque C2 = /l/. Qu’en sera-t-il avec C2=(/r/ présumé) ? Nous utilisons la difficulté de discrimination de C1C2-C1C2 comme index de réparation de C1C2 (auditeurs mandarins ; stimuli produits par une bilingue mandarin-russe). Conformément aux prédictions, la discrimination est moins bonne pour/s/ que pour /l/. Mais de manière cruciale, la discrimination est aussi mauvaise pour le /r/ présumé que pour /s/ (prou–prou psou–psou << plou–plou). Ces données suggèrent que la consonne notée <r> du mandarin est plutôt une obstruante qu’une liquide : /ʐ/ plutôt que /r/.

Après thyroïdectomie totale, la plainte vocale des patients, hors paralysie récurrentielle, est attribuée à l’atteinte du nerf laryngé supérieur (NLS) difficilement objectivable. Cette étude détermine si des paramètres rythmiques (ici temporels) de la parole de ces patients peuvent servir à son diagnostic. Elle a été menée chez 28 femmes avec suspicion d’atteinte de la branche crico-thyroïdienne du NLS (CT-), comparées à 27 autres sans dommage (CT+) après thyroïdectomie, au regard d’une population témoin (T). Les paramètres rythmiques étudiés montrent une diminution de la proportion des intervalles vocaliques sur tout l’énoncé, ainsi qu’une augmentation de la durée des intervalles consonantiques, moins variables, chez les CT-. La mobilisation des plis vocaux serait plus complexe et la réalisation des consonnes semblerait mettre en difficulté les CT-. Cette étude innovante sur le rythme des CT-, a tout son intérêt pour répondre aux attentes des patients et des professionnels de la voix.

pdf abs
Nouvelle tâche sémantique pour le corpus de compréhension de parole en français MEDIA
Nadège Alavoine | Gaëlle Laperrière | Christophe Servan | Sahar Ghannay | Sophie Rosset

La détection d’intention et de concepts sont des tâches essentielles de la compréhension de la parole(SLU). Or il n’existe que peu de données annotées en français permettant d’effectuer ces deux tâches conjointement. Cependant, il existe des ensembles de données annotées en concept, dont le corpus MEDIA. Ce corpus est considéré comme l’un des plus difficiles. Néanmoins, il ne comporte que des annotations en concepts et pas en intentions. Dans cet article, nous proposons une version étendue de MEDIA annotée en intentions pour étendre son utilisation. Cet article présente une méthode semi-automatique pour obtenir cette version étendue. De plus, nous présentons les premiers résultats des expériences menées sur cet ensemble de données en utilisant des modèles joints pour la classification des intentions et la détection de concepts.

pdf abs
Perception des frontières prosodiques intonatives du français par des natifs : Études comportementale et électroencéphalographique
Lei Xi | Rachid Ridouane | Frédéric Isel

Deux expériences sur la désambiguïsation syntaxique par prosodie sont exposées dans cette étude. Dans l’expérience perceptive, nous avons demandé à 20 francophones natifs de compléter des phrases localement ambiguës afin de déterminer leur capacité à assigner correctement les mots cibles à leurs fonctions syntaxiques sur la base des indices prosodiques disponibles. Dans l’expérience électroencéphalographique (EEG), le signal continu de 20 francophones natifs a été enregistré pendant qu’ils écoutaient les mêmes phrases ambiguës. Les résultats perceptifs ont montré que les participants, bien que natifs du français, ont eu des difficultés à établir la fonction syntaxique du mot cible par l’indice prosodique. En revanche, les données neurocognitives suggèrent que les frontières intonatives ont été analysées comme l’atteste la Closure Positive Shift (CPS), présentant un maximum autour de 400 à 500 ms après l’onset de la dernière syllabe qui précède la frontière prosodique. Nos données soulignent l’importance du contexte prosodique complet et informatif en perception de la parole.

pdf abs
Peut-on évaluer la compréhensibilité de la parole sans référence quant aux intentions de communication du locuteur ? Une étude auprès d’apprenants germanophones de FLE
Verdiana De Fino | Isabelle Ferrané | Julien Pinquier | Lionel Fontan

En didactique des langues étrangères, la compréhensibilité des énoncés produits par les apprenants est le plus souvent évaluée de manière subjective, à l’aide d’échelles qualitatives. Très souvent, ces évaluations sont menées sans que l’évaluateur ne soit informé du contenu sémantique du message que souhaitait transmettre l’apprenant. L’évaluateur peut donc ignorer des divergences entre ce dernier et sa propre interprétation de l’énoncé – avec pour conséquence une surestimation de la compréhensibilité. Dans cette étude, nous vérifions l’existence d’un tel biais en demandant à 80 francophones natifs d’évaluer la compréhensibilité d’énoncés produits par neuf apprenants germanophones de français lors d’une tâche de traduction. L’évaluation est conduite sans référence (condition « a priori »), et en prenant connaissance d’une traduction de référence (condition « a posteriori »). Les résultats démontrent que les scores de compréhensibilité sont significativement plus élevés dans la condition a priori que dans la condition a posteriori, avec une taille d’effet importante.

Dans cet article, nous présentons notre contribution à la tâche de classification des émotions dans la parole dans le cadre de notre participation à la campagne d’évaluation Odyssey 2024. Nous proposons un système hybride qui tire parti à la fois des informations du signal audio et des informations sémantiques issues des transcriptions automatiques. Les résultats montrent que l’ajout de l’information sémantique permet de dépasser les systèmes uniquement audio.

pdf abs
Preuve de concept d’un système de génération automatique en Langue française Parlée Complétée
Brigitte Bigi | Nuria Gala

La Langue française Parlée Complétée (LfPC) est un système de communication développé pour les personnes sourdes afin de compléter la lecture labiale avec une main, au niveau phonétique. Il est utilisé par les enfants pour acquérir des compétences en lecture, en lecture labiale et en communication orale. L’objectif principal est de permettre aux enfants sourds de devenir des lecteurs et des locuteurs compétents en langue française. Nous proposons une preuve de concept (PoC) d’un système de réalité augmentée qui place automatiquement la représentation d’une main codeuse sur la vidéo pré-enregistrée d’un locuteur. Le PoC prédit la forme et la position de la main, le moment durant lequel elle doit être affichée, et ses coordonnées relativement au visage dans la vidéo. Des photos de mains sont ensuite juxtaposées à la vidéo. Des vidéos annotées automatiquement par le PoC ont été montrées à des personnes sourdes qui l’ont accueilli et évalué favorablement.

pdf abs
Rôle de l’activité laryngale dans la production des consonnes d’arrière en arabe levantin
Jalal Al-Tamimi

Cette étude examine le rôle de l’activité laryngale dans la production des consonnes d’arrière en arabe levantin. 26 mesures incluant la hauteur du larynx (HL), le contact de glotte (quotient fermé; QF) et la pente spectrale (PS) ont été obtenues de données d’éléctroglottographies et d’acoustiques synchronisées. À partir des classifications via des forêts aléatoires (Random Forests), sept mesures ont été identifiées comme les plus importantes pour discriminer entre les six classes. Ensuite, une modélisation via des Régressions Additives à Effets-Mixtes montre que les consonnes pharyngales sont associées à HL, QF et PS, résultant d’une différence de la saillance spectrale causée par une constriction épilaryngale. Les consonnes pharyngalisées induisent des traits HL, QF et PS causés par une fermeture abrupte de la glotte; les consonnes uvulaires induisent des traits HL, QF et PS. Ces changements sont corrélés avec le trait [+Constricted Glottis] et suivent les prédictions du Laryngeal Articulator Model.

pdf abs
Sandhi tonal en shanghaïen : une étude acoustique des contours dissyllabiques chez des locuteurs jeunes
Yu Chen | Nathalie Vallée | Thi-Thuy-Hien Tran | Silvain Gerber

Le shanghaïen possède deux types de sandhi tonal : Left Dominant Sandhi (LDS) dans les composés sémantiques de type syntagme nominal (SN) et Right Dominant Sandhi (RDS) dans des phrases prosodiques de type syntagme verbal (SV). Cette étude examine les caractéristiques acoustiques du contour tonal dans des SN et SV dissyllabiques chez trois locutrices jeunes. Nos résultats montrent que les tons des SN subissent des changements phonologiques relevant du LDS, alors que les SV sont plutôt soumis aux effets phonétiques de la coarticulation tonale plutôt qu’au RDS. L’absence de différences significatives entre les SN et les SV ne permet pas de généraliser une distinction entre eux uniquement sur la base des réalisations tonales. Cette étude exploratoire ouvre des perspectives pour de futurs travaux intergénérationnels sur les productions tonales et la perception du sandhi tonal, en étendant le corpus à différentes positions au sein de la phrase et différentes classes d’âge.

pdf abs
Synthèse de syllabes avec un modèle de Maeda piloté par une représentation complexe
Frédéric Berthommier

Un modèle mathématique est construit sur une notion de coordination des articulateurs à partir d’une représentation bidimensionnelle complexe. Les voyelles sont représentées par des positions en bordure du cercle unité, et pour le modèle de Maeda, les paramètres articulatoires sont générés avec une fonction de coordination facile à configurer. Les consonnes plosives /bdg/ sont encodées de la même manière, mais pour produire des syllabes, le graphe reliant les positions phonétiques distingue les arcs vocaliques et les arcs consonantiques. Un flux de paramètres articulatoires est dérivé par application sélective de la fonction de coordination. Les contributions de deux groupes d’articulateurs sont ainsi superposées et synchronisées pour piloter le modèle de Maeda et obtenir la synthèse de trajectoires formantiques. Ce modèle possède un schéma déterministe similaire à celui de la phonologie articulatoire, mais de nombreuses simplifications sont opérées.

pdf abs
Traitement incrémental de la prosodie en L2
Giuseppina Turco | Chie Nakamura | Hiyon Yoo

Les auditeurs natifs s’appuient sur des indices prosodiques pour résoudre les ambiguïtés syntaxiques à un stade très précoce du traitement en ligne des phrases. Nous proposons de tester si un mécanisme similaire est utilisé par les auditeurs de langue seconde. En utilisant un paradigme du monde visuel, nous avons testé des phrases en anglais avec une ambiguïté d’attachement du syntagme prépositionnel avec des apprenants français d’anglais L2. L’impact de la frontière prosodique placée avant ou après le Syntagme Nominal objet a été examiné (p. ex. The boy will write to the panda with the crayon, ou The boy will write to the panda with the crayon). Nos résultats préliminaires montrent que les apprenants français sont capables d’intégrer l’information des frontières prosodiques pour résoudre l’ambiguïté syntaxique plus rapidement que les populations d’apprenants testées précédemment (c.-à-d. L1 japonais et L2 anglais). Cela suggère que les apprenants exploitent des indices prosodiques fins dans les décisions d’analyse syntaxique pour localiser l’information de frontière.

pdf abs
Une étude exploratoire de la parole sifflée en tant que signal modulé
Liem Landri | Benjamin O’Brien | Anna Marczyk

La présente étude propose une analyse comparative exploratoire entre l’espagnol parlé et sifflé (le silbo gomero) en termes du signal modulé à l’aide du MPS (spectre de puissance de modulation). Le résultat met en évidence des similarités entre ces deux modalités de la langue dans la plage des modulations spectrotemporelles lentes (1-8 Hz), associées à la compréhensibilité, tandis que des dissemblances sont observées dans la plage au-delà de 8 Hz sur l’axe temporel et 1 cyc/octave sur l’axe spectral, liées à l’intelligibilité. Ce résultat suggère que la modalité sifflée pourrait optimiser cette niche acoustique spécifique facilitant le décodage du message.

pdf abs
Une étude intra et inter-dialectale des voyelles du korebaju
Jenifer Andrea Vega Rodriguez | Nathalie Vallée | Thiago Chacon | Christophe Savariaux | Silvain Gerber

Cette étude a pour but la description des qualités vocaliques présentes dans deux variétés de korebaju, une langue tucanoane parlée dans le piémont de l’Amazonie colombienne. Les analyses acoustiques et statistiques révèlent l’absence de différences significatives entre les voyelles des deux variétés. Néanmoins, des variations liées à la génération et au genre au sein d’une même variété ont été constatées. Les résultats suggèrent que la perception d’une glottalisation plus prononcée dans la variété tama pourrait être associée à une distinction morphologique, une hypothèse actuellement en cours d’examen en prenant en considération le système tonal, la nasalisation et la morphologie. Cet article est une version améliorée et en français de celui figurantdans les actes de la conférence 2nd Annual Meeting of the Special Interest Group on Under-resourced Languages, SIGUL-ISCA en 2023.

pdf abs
Une nouvelle grammaire de l’intonation de la phrase française
Philippe Martin

On propose une nouvelle grammaire prosodique de l’intonation de la phrase en français. Cette grammaire rassemble des règles de réécriture opérant sur des événements prosodiques alignés sur les voyelles des syllabes accentuées des groupes accentuels, en position finale en français. Ces règles définissent les séquences bien formées d’évènements prosodiques de la phrase, quelle que soit sa complexité, en s’assurant que les conditions nécessaires et suffisantes pour indiquer sans ambiguïté une structure prosodique donnée soient remplies. Elles remettent en cause, entre autres, l’annotation d’un ton H* ou LH* aligné sur la frontière droite des syntagmes intonatifs intermédiaires ip.

pdf abs
Vérification automatique de la voix de locuteurs après resynthèse à l’aide de PPG
Thibault Gaudier | Marie Tahon | Anthony Larcher | Yannick Estève

La création de contenu journalistique peut être assistée par des outils technologiques comme la synthèse de parole. Cependant l’éditeur doit avoir la possibilité de contrôler la génération du contenu audio comme la prosodie, la prononciation ou le contenu linguistique. Dans ces travaux, un système de conversion de voix génère un signal de locuteur cible à partir d’une représentation temporelle de type Phonetic PosteriorGrams (PPGs) extraite d’un audio source. Les PPGs démêlent le contenu phonétique du contenu rythmique, et sont généralement considérés indépendants du locuteur. Cet article présente un système de conversion utilisant les PPGs, et son évaluation en qualité audio avec un test perceptif. Nous montrons également qu’un système de vérification du locuteur ne parvient pas à identifier le locuteur source après la conversion, même si le modèle a été entraîné sur des données synthétiques.

pdf abs
Voix enfantines, genre et classe sociale : une étude de la fréquence fondamentale
Erwan Pépiot

Cette étude porte sur les productions d’enfants francophones francilien•nes âgé•es de 8 à 10 ans, en lecture et en parole semi-spontanée. Deux groupes ont été enregistrés : des élèves d’une école privée favorisée (10 filles et 8 garçons), et des enfants scolarisés dans une école publique défavorisée (8 filles et 10 garçons). La F0 moyenne et la modulation de F0 ont été analysées. Les filles présentent une F0 moyenne significativement plus élevée que les garçons dans les deux écoles. La différence étant légèrement plus marquée chez les enfants de l’école favorisée. Aucune corrélation significative n’a été trouvée entre la taille des locuteur•rices et leur F0 moyenne. La modulation de F0 est significativement plus élevée chez les filles au sein de l’école favorisée, mais très similaire entre les deux genres dans l’école défavorisée. Indépendamment du genre, la modulation de F0 est plus forte chez les enfants issus de milieu favorisé.

pdf abs
iHist et iScatter, outils en ligne d’exploration interactive de données : application aux valeurs aberrantes de f0 et de formants
Nicolas Audibert

Les mesures aberrantes d’un point de vue statistique (outliers) doivent être traitées avec précaution, ce qui peut être compliqué en pratique lorsque la quantité de données devient importante. Afin de faciliter l’inspection des valeurs situées à la marge des distributions, nous proposons deux outils développés avec R/Shiny, disponibles sous forme d’applications en ligne utilisables par des non-spécialistes et distribués gratuitement sous licence GPL. Ces applications permettent de paramétrer la visualisation et d’explorer de façon interactive des distributions via des histogrammes, et les relations entre variables quantitatives via des nuages de points. Deux cas d’utilisation appliqués à des données de parole sont présentés pour illustrer les principales fonctionnalités de ces outils, à partir de mesures acoustiques extraites par Praat : l’ajustement des valeurs limites pour la détection automatique de la fréquence fondamentale, et l’identification de valeurs erronées de formants.