Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

Laurence Danlos, Thierry Hamon (Editors)

Anthology ID:: 2016.jeptalnrecital-jep
Month:: 7
Year:: 2016
Address:: Paris, France
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: AFCP - ATALA
URL:: https://aclanthology.org/2016.jeptalnrecital-jep
DOI:
Bib Export formats:: BibTeX

pdf bib
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Laurence Danlos | Thierry Hamon

pdf bib abs
Le VOT des éjectives : le cas du maya yucatèque (The VOT of ejective stops in Maya Yucatec)
Emre Bayraktar | Rachid Ridouane

Cet article présente une étude acoustique des occlusives éjectives du maya yucatèque. S’intéressant spécifiquement au voice onset time (VOT), l’étude examine d’une part si le VOT est un corrélat acoustique fiable de l’éjectivité dans cette langue et d’autre part si le VOT varie selon le lieu d’articulation et la hauteur vocalique. Les résultats, obtenus à partir des productions de deux locuteurs natifs, montrent que les éjectives ont un VOT plus long comparées à leurs contreparties pulmonaires. Parmi les éjectives, le VOT varie en fonction du lieu d’articulation, les vélaires présentant le VOT le plus long. De même une tendance pour un VOT plus court devant les voyelles hautes a été observée. Ces résultats soulèvent un ensemble de questions concernant les mécanismes qui sous-tendent les variations du VOT, notamment en lien avec les contraintes aérodynamiques en jeu lors de la production des occlusives éjectives.

pdf bib abs
Accommodation temporelle chez l’enfant dans une tâche de parole alternée (Children’s temporal accommodation in an alternated naming task)
Céline Hidalgo | Simone Falk | Daniele Schön

L’accommodation temporelle entre deux interlocuteurs est un phénomène qui émerge lors d’une interaction et qui jouerait un rôle important dans la fluidité des échanges. Cette étude examine cette capacité temporelle chez l’enfant âgé de 5 à 6 ans grâce au développement d’une nouvelle tâche de dénomination en alternance avec un partenaire virtuel. Les variables temporelles analysées sont le tempo de l’alternance (lent versus rapide) et la rythmicité des mots échangés (constante versus aléatoire). Les enfants sont plus précis dans la condition de tempo rapide et plus réguliers lorsque la rythmicité des listes de mots est maintenue constante. Ces résultats montrent 1) que la dénomination en alternance est un paradigme permettant de mesurer les capacités d’accommodation temporelle des enfants et que 2) dès 5 ans, les enfants peuvent ajuster leur parole à celle d’un agent. Ces données constituent une base pour mesurer les capacités linguistiques d’accommodation temporelle chez des populations cliniques.

pdf abs
Accès lexical et reconnaissance du voisement en voix chuchotée (Lexical acces and recognition of voicing in whisper)
Yohann Meynadier | Sophie Dufour

La reconnaissance du trait de voisement de consonnes obstruantes chuchotées en français a été examinée via un paradigme d’amorçage sémantique auditif-visuel. Un effet d’amorçage d’amplitude similaire à celui mesuré en voix modale a été observé uniquement lorsque l’obstruante du mot amorce chuchoté est sourde (dessert-CHOCOLAT). Aucun effet d’amorçage n’a été noté quand l’obstruante du mot amorce est voisée (désert) que ce soit sur le mot cible SABLE associé sémantique de désert ou sur le mot cible CHOCOLAT associé sémantique de dessert. Ainsi, même si certaines travaux ont mis en évidence qu’en voix chuchotée les consonnes obstruantes voisées maintiennent des traces phonétiques de leur identité sous-jacente, notre étude montre que ces consonnes sont ambigües pour l’auditeur et que leur reconnaissance n’est pas immédiate.

pdf abs
Acquisition et reconnaissance automatique d’expressions et d’appels vocaux dans un habitat. (Acquisition and recognition of expressions and vocal calls in a smart home)
Michel Vacher | Benjamin Lecouteux | Frédéric Aman | François Portet | Solange Rossato

Cet article présente un système capable de reconnaître les appels à l’aide de personnes âgées vivant à domicile afin de leur fournir une assistance. Le système utilise une technologie de Reconnaissance Automatique de la Parole (RAP) qui doit fonctionner en conditions de parole distante et avec de la parole expressive. Pour garantir l’intimité, le système s’exécute localement et ne reconnaît que des phrases prédéfinies. Le système a été évalué par 17 participants jouant des scénarios incluant des chutes dans un Living lab reproduisant un salon. Le taux d’erreur de détection obtenu, 29%, est encourageant et souligne les défis à surmonter pour cette tâche.

pdf abs
Adaptation de la prononciation pour la synthèse de la parole spontanée en utilisant des informations linguistiques (Pronunciation adaptation for spontaneous speech synthesis using linguistic information)
Raheel Qader | Gwénolé Lecorvé | Damien Lolive | Pascale Sébillot

Cet article présente une nouvelle méthode d’adaptation de la prononciation dont le but est de reproduire le style spontané. Il s’agit d’une tâche-clé en synthèse de la parole car elle permet d’apporter de l’expressivité aux signaux produits, ouvrant ainsi la voie à de nouvelles applications. La force de la méthode proposée est de ne s’appuyer que sur des informations linguistiques et de considérer un cadre probabiliste pour ce faire, précisément les champs aléatoires conditionnels. Dans cet article, nous étudions tout d’abord la pertinence d’un ensemble d’informations pour l’adaptation, puis nous combinons les informations les plus pertinentes lors d’expériences finales. Les évaluations de la méthode sur un corpus de parole conversationnelle en anglais montrent que les prononciations adaptées reflètent significativement mieux un style spontané que les prononciations canoniques.

pdf abs
Alignement de séquences phonétiques pour une analyse phonologique des erreurs de transcription automatique (Phonetic sequences alignment for a phonemic analysis of automatic speech transcription errors )
Camille Dutrey | Martine Adda-Decker | Naomi Yamaguchi

La transcription automatique de la parole obtient aujourd’hui des performances élevées avec des taux d’erreur qui tombent facilement en dessous de 10% pour une parole journalistique. Cependant, pour des conversations plus libres, ils stagnent souvent autour de 20–30%. En français, une grande partie des erreurs sont dues à des confusions entre homophones n’impliquant pas les niveaux acousticophonétique et phonologique. Cependant, de nombreuses erreurs peuvent s’expliquer par des variantes de productions non prévues par le système. Afin de mieux comprendre quels processus phonologiques pourraient expliquer ces variantes spécifiques de la parole spontanée, nous proposons une analyse des erreurs en comparant prononciations attendue (référence) et reconnue (hypothèse) via un alignement phonétique par programmation dynamique. Les distances locales entre paires de phonèmes appariés correspondent au nombre de traits phonétiques disjoints. Nos analyses permettent d’identifier les traits phonétiques les plus fréquemment impliqués dans les erreurs et donnent des pistes pour des interprétations phonologiques.

pdf abs
Allophonie et position dans la syllabe: Indices acoustiques pour les consonnes laterales (Acoustics of syllable position allophony: The case of lateral consonants)
Anisia Popescu | Ioana Chitoran

L‟article traite de la manifestation acoustique des consonnes latérales en anglais américain et en roumain en fonction de la position syllabique et de la complexité phonotactique. Nous avons considéré quatre types de mesures: valeurs formantiques, équations locus, ratio d‟intensité et présence/absence de relâchements. Notre but est, d‟une part, de classifier les allophones des deux langues considérées et d‟autre part de déterminer les indices acoustiques des gestes articulatoires des consonnes latérales. Les résultats indiquent des différences importantes entre les deux langues. On montre que la distribution des allophones n‟est pas binaire, mais graduée et que le statut du geste dorsal peut être considéré comme un marqueur de « degré de clarté ». On montre aussi que l‟allophonie dépend de la position syllabique mais pas forcément de la complexité syllabique.

pdf abs
Analyses acoustiques des monophtongues du luxembourgeois produites dans la parole lue (Acoustic analyses of Luxembourgish monophthongs produced in reading speech)
Tina Thill

Cet article présente une analyse acoustique de 12 monophtongues du luxembourgeois produites par des locuteurs de la région centrale du Grand-Duché de Luxembourg. Cette analyse fait partie du travail empirique de notre thèse de doctorat sur les productions natives et non natives des voyelles du luxembourgeois. A partir des données de 10 locuteurs natifs, nous analysons les valeurs de la durée et des trois premiers formants des paires de voyelles longues et brèves opposées [iː]-[i], [eː][e], [aː]-[ɑ], [oː]-[ɔ], [uː]-[u] et de l’allophone [ɛː] réalisée lorsqu’elle est suivie d’un /r/. Les analyses montrent que (i) les voyelles longues et brèves se distinguent tant par la durée acoustique que par le timbre, (ii) la voyelle semi-ouverte [ɛː] suivie d’un /r/ vocalisé tend à se diphtonguer.

pdf abs
Auto-encodeurs pour la compréhension de documents parlés (Auto-encoders for Spoken Document Understanding)
Killian Janod | Mohamed Morchid | Richard Dufour | Georges Linarès | Renato De Mori

Les représentations de documents au moyen d’approches à base de réseaux de neurones ont montré des améliorations significatives dans de nombreuses tâches du traitement du langage naturel. Dans le cadre d’applications réelles, où des conditions d’enregistrement difficiles peuvent être rencontrées, la transcription automatique de documents parlés peut générer un nombre de mots mal transcrits important. Cet article propose une représentation des documents parlés très bruités utilisant des caractéristiques apprises par un auto-encodeur profond supervisé. La méthode proposée s’appuie à la fois sur les documents bruités et leur équivalent propre annoté manuellement pour estimer une représentation plus robuste des documents bruités. Cette représentation est évaluée sur le corpus DECODA sur une tâche de classification thématique de conversations téléphoniques atteignant une précision de 83% avec un gain d’environ 6%.

pdf abs
Autoapprentissage pour le regroupement en locuteurs : premières investigations (First investigations on self trained speaker diarization )
Gaël Le Lan | Sylvain Meignier | Delphine Charlet | Anthony Larcher

This paper investigates self trained cross-show speaker diarization applied to collections of French TV archives, based on an i-vector/PLDA framework. The parameters used for i-vectors extraction and PLDA scoring are trained in a unsupervised way, using the data of the collection itself. Performances are compared, using combinations of target data and external data for training. The experimental results on two distinct target corpora show that using data from the corpora themselves to perform unsupervised iterative training and domain adaptation of PLDA parameters can improve an existing system, trained on external annotated data. Such results indicate that performing speaker indexation on small collections of unlabeled audio archives should only rely on the availability of a sufficient external corpus, which can be specifically adapted to every target collection. We show that a minimum collection size is required to exclude the use of such an external bootstrap.

BILINGUISMES ET COMPLIANCE PHONIQUE Certains types de bilinguisme pourraient avoir un impact positif sur l’apprentissage phonique et faciliter l’acquisition d’une L3. Certains bilingues pourraient donc présenter une meilleure compliance phonique (aptitude à produire des sons de parole non familiers) que les monolingues. Les données de quatre sujets bilingues ont été recueillies lors d’une tâche de reproduction de voyelles synthétiques précédée d’une phase de production de voyelles en langue maternelle (paradigme développé par Huet et al., 2012). Trois indices ont été calculés et comparés à ceux obtenus par des monolingues francophones lors d’une étude précédente (Delvaux et al., 2014). Les résultats n’ont pas révélé de différence significative entre monolingues et bilingues. Toutefois, le classement des bilingues variait d’un indice à l’autre, suggérant des profils plus diversifiés que chez les monolingues. En conclusion, ces résultats confirment la complexité de la compliance phonique, en particulier chez des locuteurs bilingues, et soulignent l’intérêt d’une approche multi-componentielle ainsi que le besoin d’ajustements ultérieurs de la réflexion théorique sous-jacente.

pdf abs
De bé à bébé : le transfert d’apprentissage auditori-moteur pour interroger l’unité de production de la parole (From sensorimotor experience to speech unit)
Tiphaine Caudrelier | Pascal Perrier | Jean-Luc Schwartz | Christophe Savariaux | Amélie Rochet-Capellan

La parole est souvent décrite comme une mise en séquence d’unités associant des représentations linguistiques, sensorielles et motrices. Le lien entre ces représentations se fait-il de manière privilégiée sur une unité spécifique ? Par exemple, est-ce la syllabe ou le mot ? Dans cette étude, nous voulons contraster ces deux hypothèses. Pour cela, nous avons modifié chez des locuteurs du français la production de la syllabe « bé », selon un paradigme d’adaptation auditori-motrice, consistant à perturber le retour auditif. Nous avons étudié comment cette modification se transfère ensuite à la production du mot « bébé ». Les résultats suggèrent un lien entre représentations linguistiques et motrices à plusieurs niveaux, à la fois celui du mot et de la syllabe. Ils montrent également une influence de la position de la syllabe dans le mot sur le transfert, qui soulève de nouvelles questions sur le contrôle sériel de la parole.

pdf abs
Caractérisation statique et dynamique des voyelles dans des transitions VV (Static and dynamic characterization of vowels in VV sequences)
Julien Millasseau | Olivier Crouzet

Nous étudions les indices acoustiques liés à la caractérisation statique et / ou dynamique des voyelles du français. Nous avons analysé les caractéristiques formantiques de six réalisations vocaliques ainsi que les transitions formantiques de seize combinaisons V1 V2 impliquant ces 6 voyelles afin d’évaluer les contributions des indices dynamiques liés aux transitions entre voyelles et des indices statiques de fréquence. Les mesures correspondantes sont issues d’un protocole dans lequel le débit de parole était influencé expérimentalement afin de provoquer d’éventuelles variations de vitesse de transition. Les résultats ne permettent pas de départager ces deux hypothèses mais montrent que les indices dynamiques pourraient être aussi fiables que les mesures statiques. Des pistes d’extension de ce travail sont proposées qui pourraient contribuer de manière plus informative à cette problématique.

pdf abs
Cartopho : un site web de cartographie de variantes de prononciation en français (Cartopho: a website for mapping pronunciation variants in French)
Philippe Boula de Mareüil | Jean-Philippe Goldman | Albert Rilliard | Yves Scherrer | Frédéric Vernier

Le présent travail se propose de renouveler les traditionnels atlas dialectologiques pour cartographier les variantes de prononciation en français, à travers un site internet. La toile est utilisée non seulement pour collecter des données, mais encore pour disséminer les résultats auprès des chercheurs et du grand public. La méthodologie utilisée, à base de crowdsourcing (ou « production participative »), nous a permis de recueillir des informations auprès de 2500 francophones d’Europe (France, Belgique, Suisse). Une plateforme dynamique à l’interface conviviale a ensuite été développée pour cartographier la prononciation de 70 mots dans les différentes régions des pays concernés (des mots notamment à voyelle moyenne ou dont la consonne finale peut être prononcée ou non). Les options de visualisation par département/canton/province ou par région, combinant plusieurs traits de prononciation et ensembles de mots, sous forme de pastilles colorées, de hachures, etc. sont présentées dans cet article. On peut ainsi observer immédiatement un /E/ plus fermé (ainsi qu’un /O/ plus ouvert) dans le Nord-Pas-de-Calais et le sud de la France, pour des mots comme parfait ou rose, un /Œ/ plus fermé en Suisse pour un mot comme gueule, par exemple.

pdf abs
Comparaison de listes d’erreurs de transcription automatique de la parole : quelle complémentarité entre les différentes métriques ? (Comparing error lists for ASR systems : contribution of different metrics)
Olivier Galibert | Juliette Kahn | Sophie Rosset

Le travail que nous présentons ici s’inscrit dans le domaine de l’évaluation des systèmes de reconnaissance automatique de la parole en vue de leur utilisation dans une tâche aval, ici la reconnaissance des entités nommées. Plus largement, la question que nous nous posons est “que peut apporter une métrique d’évaluation en dehors d’un score ?". Nous nous intéressons particulièrement aux erreurs des systèmes et à leur analyse et éventuellement à l’utilisation de ce que nous connaissons de ces erreurs. Nous étudions dans ce travail les listes ordonnées d’erreurs générées à partir de différentes métriques et analysons ce qui en ressort. Nous avons appliqué la même méthode sur les sorties de différents systèmes de reconnaissance de la parole. Nos expériences mettent en évidence que certaines métriques apportent une information plus pertinente étant donné une tâche et transverse à différents systèmes.

pdf abs
Se concentrer sur les différences : une méthode d’évaluation subjective efficace pour la comparaison de systèmes de synthèse (Focus on differences : a subjective evaluation method to efficiently compare TTS systems * )
Jonathan Chevelu | Damien Lolive | Sébastien Le Maguer | David Guennec

En proposant une nouvelle approche de synthèse de la parole, les études comportent généralement une évaluation subjective d’échantillons acoustiques produits par un système de référence et un nouveau système. Ces échantillons sont produits à partir d’un petit ensemble de phrases choisies aléatoirement dans un unique domaine. Ainsi, statistiquement, des échantillons pratiquement identiques sont présentés et réduisent les écarts de mesure entre les systèmes, au risque de les considérer comme non significatifs. Pour éviter cette problématique méthodologique, nous comparons deux systèmes sur des milliers d’échantillons de différents domaines. L’évaluation est réalisée uniquement sur les paires d’échantillons les plus pertinentes, c’est-à-dire les plus différentes acoustiquement. Cette méthode est appliquée sur un système de synthèse de type HTS et un second par sélection d’unités. La comparaison avec l’approche classique montre que cette méthode révèle des écarts qui jusqu’alors n’étaient pas significatifs.

pdf abs
Constituance et phrasé prosodique en français : une étude perceptive. (Prosodic constituency and phrasing in French: a perception study)
Laury Garnier | Corine Astésano | Lorraine Baqué | Anne Dagnac

L’objectif de cette étude est d’explorer l’organisation du phrasé prosodique en français. Il n’existe pas de consensus clair sur le nombre de niveaux nécessaires pour refléter la hiérarchie prosodique de la langue. Dans ce cadre, nous proposons une étude perceptive, via un corpus de parole contrôlée manipulant des structures syntaxiques ambiguës, où 27 participants ont effectué 3 tâches de perception : proéminence, frontière et groupement. Nos résultats montrent une utilisation privilégiée des indices de frontières dans le marquage des groupes prosodiques. Plus précisément, on observe que les auditeurs sont capables de percevoir des niveaux de granularité de frontières plus fins que ce que les descriptions traditionnelles du français prédisent. Par ailleurs, les résultats de la tâche de proéminence montrent que l’accent initial est toujours perçu plus fort que l’accent final, et ce dès les niveaux les plus bas de la hiérarchie.

pdf abs
Contribuer au progrès solidaire des recherches et de la documentation : la Collection Pangloss et la Collection AuCo (Contributing to joint progress in documentation and research: some achievements and future perspectives of the Pangloss Collection and the AuCo Collection)
Alexis Michaud | Séverine Guillaume | Guillaume Jacques | Đăng-Khoa Mạc | Michel Jacobson | Thu-Hà Phạm | Matthew Deo

La présente communication présente les projets scientifiques et les réalisations de deux collections hébergées par la plateforme de ressources orales Cocoon : la Collection Pangloss, qui concerne principalement des langues de tradition orale (sans écriture), du monde entier ; et la Collection AuCo, dédiée aux langues du Vietnam et de pays voisins. L’objectif est un progrès solidaire des recherches et de la documentation linguistique. L’accent est mis sur les perspectives ouvertes pour la recherche en phonétique/phonologie par certaines réalisations récentes dans le cadre de ces deux Collections.

pdf abs
Contribution à l’étude de la focalisation prosodique en français (Contribution to the study of prosodic highlighting in French)
Rémi Godement-Berline

Cette étude porte sur la focalisation prosodique en français dans plusieurs styles de parole (parole spontanée et lecture ou interprétation par des acteurs). Nous attribuons à la focalisation des fonctions sémantico-pragmatiques ou emphatiques. Un groupe de dix experts en prosodie a relevé les occurrences de focalisation dans le corpus d’étude. Les résultats confirment que la focalisation est réalisée par une augmentation de hauteur et de durée. Ils diffèrent de la littérature précédente du point de vue du type de contour prosodique employé sur les occurrences de focalisation et de la présence d’accent initial. Des problèmes méthodologiques sont soulevés concernant l’analyse des contours terminaux et de la désaccentuation.

pdf abs
Un Corpus de Flux TV Annotés pour la Prédiction de Genres (A Genre Annotated Corpus of French Multi-channel TV Streams for Genre Prediction)
Mohamed Bouaziz | Mohamed Morchid | Richard Dufour | Georges Linarès | Prosper Correa

Cet article présente une méthode de prédiction de genres d’émissions télévisées couvrant 2 jours de diffusion de 4 chaînes TV françaises structurés en émissions annotées en genres. Ce travail traite des médias de masse de flux de chaînes télévisées et rejoint l’effort global d’extraction de connaissance à partir de cette grande quantité de données produites continuellement. Le corpus employé est fourni par l’entreprise EDD, anciennement appelée “L’Européenne de Données”, une entreprise spécialisée dans la gestion des flux multimédias. Les expériences détaillées dans cet article montrent qu’une approche simple fondée sur un modèle de n-grammes permet de prédire le genre d’une émission selon un historique avec une précision avoisinant les 50 %.

pdf abs
Disfluences dans le vieillissement « normal » et la maladie d’Alzheimer : indices segmentaux, suprasegmentaux et gestuels (Disfluencies in “normal” aging and Alzheimer’s disease: segmental, suprasegmental and gestural markers)
Diane Caussade | Nathalie Vallée | Nathalie Henrich Bernardoni | Jean-Marc Colletta | Silvain Gerber | Frédérique Letué | Marie-José Martinez

L’objectif de cette étude est d’analyser et comparer les productions langagières dans leur multimodalité de 10 personnes atteintes de la maladie d’Alzheimer (MA) appariées à 10 contrôles. Différentes mesures aux niveaux segmental et suprasegmental – erreurs, pauses et allongements vocaliques – ont été réalisées dans une tâche de répétition avec ou sans gestes imposés pour caractériser une disfluence, typique de la MA, puis observées en lien avec les gestes manuels produits. Les résultats montrent la diminution significative de la fluence chez les personnes atteintes de la MA, avec davantage d’erreurs produites au niveau lexical par le groupe Patient et au niveau phonétique par les patients au stade modéré de la maladie, ainsi que de nombreuses pauses silencieuses précédant ou suivant souvent les erreurs produites au niveau segmental. De plus, dans la tâche avec gestes imposés, la répétition de ceux-ci a impacté la fluence des groupes Contrôle et Patient avec une augmentation significative des disfluences au niveau suprasegmental et des erreurs phonétiques au niveau segmental.

pdf abs
Disfluences normales vs. Disfluences sévères : une étude acoustique (Normal disfluences vs)
Ivana Didirkova | Camille Fauth | Fabrice Hirsch | Giancarlo Luxardo | Sascha Diwersy

L’objectif de cette recherche est d’étudier les caractéristiques acoustiques et perceptives des disfluences normales et sévères. Pour ce faire, un jury d’auditeurs experts a relevé les disfluences sévères et normales de 4 locuteurs qui bégaient ainsi que les accidents de parole de 4 sujets normofluents. Une analyse acoustique portant sur des paramètres tels que la durée de la disfluence, le nombre de disfluences ou encore sur la présence d’éléments prosodiques particuliers a été menée sur les seules disfluences ayant été relevés par l’ensemble du jury. Nos résultats montrent que si les prolongations et les répétitions sont bien évidemment catégorisées comme sévères respectivement en fonction de leur durée et du nombre d’éléments réitérés, d’autres paramètres sont également significatifs, tels que la présence ou non d’une tension audible, le type d’éléments répétés ou encore le fait que la syllabe soit ou non clivée.

pdf abs
La distinction entre les paraphasies phonétiques et phonologiques dans l’aphasie : Etude de cas de deux patients aphasiques (The distinction between phonetic and phonological paraphasias in aphasia: A multiple casestudy of aphasic patients)
Clémence Verhaegen | Véronique Delvaux | Kathy Huet | Fagniart Sophie | Myriam Piccaluga | Bernard Harmegnies

La spécificité phonologique ou phonétique des erreurs de production orale observées chez les patients aphasiques reste débattue. Cependant, la distinction entre ces deux types d’erreurs est fréquemment basée sur des analyses perceptives qui peuvent être influencées par le système perceptif de l’expérimentateur. Afin de pallier ce biais, nous avons réalisé des analyses acoustiques des productions de deux patients aphasiques, dans une tâche de répétition de non-mots. Nous nous sommes centrés sur l’analyse de consonnes occlusives. Les résultats ont montré la présence de difficultés de gestion du voisement chez les deux patients, indiquant la présence de troubles phonétiques. En outre, les résultats montrent une grande diversité des manifestations des troubles langagiers des patients ainsi que l’intervention potentielle de stratégies de compensation de leurs difficultés. L’intérêt de procéder à des analyses acoustiques précises utilisant des indices multiples est discuté.

pdf abs
Dynamique phonétique et contrôle moteur dans la maladie de Parkinson: analyse du contrôle de la production des glides (Speech dynamics and motion control in people with Parkinson’s disease: analysis of glides’ production)
Virginie Roland | Véronique Delvaux | Kathy Huet | Myriam Piccaluga | Marie-Claire Haelewyck | Bernard Harmegnies

Nous nous interrogeons quant à la possibilité d’identifier les difficultés de contrôle du mouvement chez les personnes atteintes de la maladie de Parkinson (MP) à partir de l’étude de leurs comportements dans la production de sons de parole nécessitant des mouvements continus des articulateurs supralaryngés (logatomes VCV, où C est un glide). Notre hypothèse est que les parkinsoniens présentent des modifications dans leur dynamique de mouvement par rapport à des personnes sans pathologie lors de la production. A cette fin, sont étudiés des sons de parole recueillis hors contexte communicationnel auprès de neuf personnes porteuses de la MP et de dix sujets sains. Les analyses révèlent des différences entre les deux groupes, notamment en ce qui concerne l’espace articulatoire, l’amplitude des mouvements et leur localisation dans le plan F 1-F2. On note par ailleurs qu’un point-cible est préservé lors de l’émission de logatomes : le centre du glide.

pdf abs
Dénomination d’image versus détection interne de phonème : deux méthodes pour étudier la planification de la production de parole (Picture naming versus internal phoneme monitoring: two methods for exploring speech production planning)
Pierre Hallé | Laura Manoiloff | Juan Segui

Cette étude est motivée initialement par une question méthodologique : la validité des mesures de temps de dénomination d’image, très utilisés pour explorer les processus de planification de production de parole. Le temps de dénomination est le temps écoulé entre affichage de l’image et début acoustique de la réponse verbale. Dans cet article, nous résumons la littérature sur les inconvénients de cette mesure. Nous présentons ensuite notre étude, qui compare directement temps de dénomination d’image et temps de détection interne de phonème initial. Les participants sont hispanophones. Les noms d’image sont contrastés en fréquence lexicale et phonème initial. Les temps de réponse pour les deux mesures sont assez proches. Cependant, ceux de détection de phonème sont relativement insensibles au type de phonème initial, contrairement aux temps de dénomination. Au delà de l’avantage méthodologique de la détection interne de phonème, nos données suggèrent que celle-ci opère sur des représentations relativement abstraites.

pdf abs
Détection automatique d’anomalies sur deux styles de parole dysarthrique: parole lue vs spontanée (Automatic anomaly detection for dysarthria across two speech styles : read vs spontaneous speech)
Imed Laaridh | Corinne Fredouille | Meunier Christine

L’évaluation perceptive de la parole pathologique reste le standard dans la pratique clinique pour le diagnostic et le suivi des patients. De telles méthodes incluent plusieurs tâches telles que la lecture, la parole spontanée, le chant, les mots isolés, la voyelle tenue, etc. Dans ce contexte, les outils de traitement automatique de la parole ont montré leur pertinence dans l’évaluation de la qualité de parole ainsi que dans le cadre de la communication améliorée et alternative (CAA) pour les patients atteints de troubles de parole. Cependant, peu de travaux ont étudié l’utilisation de ces outils sur la parole spontanée. Ce papier examine le comportement d’un système de détection automatique d’anomalies au niveau phonème face à la parole dysarthrique lue et spontanée. Le comportement du système révèle une variabilité inter-pathologique à travers les styles de parole.

pdf abs
Effet de l’input auditif sur la production de voyelles orales : étude acoustique chez des enfants normo-entendants et des enfants porteurs d’implants cochléaires âgés de 5 à 11 ans (Effect of audio input on vowel production: an acoustic study in 5- to 11-year old normalhearing and cochlear implanted children)
Benedicte Grandon | Anne Vilain

Treize enfants porteurs d’implants cochléaires (CI) et vingt enfants normo-entendants (NH) ont été enregistrés dans deux conditions : répétition de mots avec un modèle audio et production des mêmes mots sans modèle audio. Notre but était d’étudier l’effet de l’input audio sur la hauteur, l’antériorité et la dispersion des dix voyelles orales du français chez ces deux populations d’enfants. Les résultats de notre étude acoustique indiquent que : (1) l’input immédiat n’influence que la hauteur du /a/ chez les enfants NH, (2) les enfants CI produisent des voyelles /y/, /ø/, /œ/ plus postérieures que les enfants NH mais que cette différence diminue à mesure que la durée d’utilisation de l’implant augmente, et (3) la dispersion de /y/, /ø/, /œ/ est plus grande chez les enfants CI que chez les enfants NH.

pdf abs
Effet de la fréquence d’usage sur l’élision du schwa des clitiques : étude d’un corpus d’interactions naturelles (Frequency effect on schwa elision in clitics: a corpus based study)
Loïc Liégeois

Cette étude s’intéresse à l’influence d’un facteur d’usage, à savoir la fréquence des formes, sur la (non) production des schwas des clitiques. Dans cet objectif, nous nous appuyons sur un corpus d’interactions entre adultes recueillies en situation naturelle : les enregistrements, réalisés au domicile de nos six sujets, ont été récoltés au cours de scènes de vie quotidienne. Les données présentées au cours de nos analyses corroborent les résultats exposés dans de précédents travaux au sujet des schwas initiaux de polysyllabes. En effet, il s’avère que la fréquence d’emploi des collocations “Clitique + X” a un effet significatif sur les taux d’élision relevés dans les productions de nos sujets.

pdf abs
Effort produit et ressenti selon le voisement en français (Produced and perceived effort according to the voicing in French)
Camille Robieux | Thierry Legou | Yohann Meynadier | Meunier Christine

Les muscles laryngés et articulatoires sont impliqués dans la réalisation des traits qui distinguent les phonèmes. Cette étude porte sur l’auto-perception par les locuteurs et la répartition de l’effort vocal et articulatoire en fonction du trait de voisement en parole modale comparée à la parole chuchotée en français. Pour les 12 obstruantes du français, l’effort est ressenti plus important pour les voisées que les non voisées correspondantes, excepté dans le cas des fricatives labiodentales. Les analyses de la production des occlusives bilabiales montrent que l’effort laryngé est supérieur pour les consonnes voisées et l’effort articulatoire supérieur pour les non voisées, mais l’inverse pour les fricatives. Ces résultats indiquent que l’effort ressenti lors de sa propre production repose sur une perception prédominante de l’effort laryngé sur l’effort articulatoire en voix modale comme en voix chuchotée ; mais qu’il est cependant modulé selon le lieu et le mode d’articulation des consonnes.

pdf abs
Entraînements à la prosodie des questions ouvertes et fermées de l’anglais chez des apprenants francophones (Prosodic training for French students of English on Wh- and yes-no questions)
Anne Guyot-Talbot | Karin Heidlmayr | Emmanuel Ferragne

Des étudiants en anglais étaient invités à lire trois types de phrases : assertions, questions fermées et ouvertes. Ils étaient ensuite soumis à 3 sessions d’entraînements où ils devaient répéter des phrases interrogatives prononcées par une anglophone. Après chaque phrase, leur contour de F0 sur la syllabe portant le noyau intonatif ainsi que celui de la locutrice anglaise étaient affichés à l’écran. Ces sessions devaient leur permettre d’inférer une règle du système intonatif de l’anglais qui induit, par défaut, un contour montant pour les questions fermées et un contour descendant pour les questions ouvertes. Puis, une nouvelle séance d’enregistrements permettait de collecter des phrases à comparer au pré-test pour juger l’efficacité de l’entraînement. Les résultats montrent une réduction significative de la distance entre les contours mélodiques des apprenants du groupe test et ceux de la locutrice modèle entre pré-test et post-test, ce qui suggère un effet bénéfique de nos entraînements.

pdf abs
Estimation de la qualité d’un système de reconnaissance de la parole pour une tâche de compréhension (Quality estimation of a Speech Recognition System for a Spoken Language Understanding task)
Olivier Galibert | Nathalie Camelin | Paul Deléglise | Sophie Rosset

Nous nous intéressons à l’évaluation de la qualité des systèmes de reconnaissance de la parole étant donné une tâche de compréhension. L’objectif de ce travail est de fournir un outil permettant la sélection d’un système de reconnaissance automatique de la parole le plus adapté pour un système de dialogue donné. Nous comparons ici différentes métriques, notamment le WER, NE-WER et ATENE métrique proposée récemment pour l’évaluation des systèmes de reconnaissance de la parole étant donné une tâche de reconnaissance d’entités nommées. Cette dernière métrique montrait une meilleure corrélation avec les résultats de la tâche globale que toutes les autres métriques testées. Nos mesures indiquent une très forte corrélation avec la mesure ATENE et une moins forte avec le WER.

pdf abs
Etude acoustique du discours politique d’hispanophones : le cas de Hugo Chávez et de José Zapatero (Politicians’ speech styles can be distinguished thanks to their prosodic realizations)
Carmen Patricia Pérez

Les styles de discours des hommes politiques peuvent être identifiés grâce à leurs réalisations prosodiques. On peut reconnaître un homme politique ‘révolutionnaire’ ou ‘traditionnel’ en écoutant quelques minutes de discours. Je me propose de montrer quels sont les paramètres prosodiques pertinents dans cette distinction en comparant les phonostyles de Hugo Chávez et José Zapatero. Je présente également le changement de phonostyle de Chávez dans deux situations différentes (c.-àd. deux phono-genres), en interview et en public. Le modèle de Ph. Martin Contraste de Pente Mélodique est utilisé pour décrire la structure prosodique. Les analyses acoustiques montrent que les phonostyles de ces personnalités se différencient, dans le même phono-genre, dans la réalisation des contours de continuation, l’étendue du registre et le débit, alors que la construction des groupes intonatifs est semblable. Une brève étude sur les imitateurs de Chávez et de Zapatero est rajoutée pour montrer qu’ils reproduisent avec efficacité les paramètres acoustiques pertinents de ces leaders.

pdf abs
Etude acoustique et représentation phonologique sur /ə˞/ suffixe rhotique en mandarin (Acoustic study and phonological representation of the rhotic suffix /ə˞/ in mandarin)
Anqi Liu

Historiquement, le suffixe /ə˞/ est un suffixe diminutif correspondant au mot 儿 (<er> en pinyin) qui signifie ”petitesse”. Il relève d’une particularité du style plutôt que de la grammaire. Il apparait souvent dans la parole des locuteurs du nord de la Chine. Pour mieux comprendre le phénomène et son comportement phonologique, on présente les résultats d’une étude acoustique qui vérifie les effets de la rhoticité sur les voyelles adjacentes. Sur la base de ces résultats, on propose une représentation gestuelle du suffixe et des processus qui l’impliquent dans le cadre de la phonologie articulatoire (Browman & Goldstein1992).

pdf abs
Étude de la contribution acoustique de la structure formantique à la perception du ton chuchoté (A study of the acoustic contri bution of formant structure to tone i dentificati on in whis pered speech)
Zhang Xuelu | Rudolph Sock

Cette étude examine la contribution de la structure formantique du segment vocalique à l’identification du ton que ce segment porte, et cela en voix chuchotée. Le mandarin a été choisi en tant que langue cible parce que les traits tonals (tone features) en mandarin s’appuient acoustiquement sur deux dimensions : le registre et le contour. Nous supposons qu’en l’absence d e F0, la structure formantique subirait néanmo ins une modification, en fonction du ton et fournirait des indices acoustiques des traits tonals à l’auditeur. Nous nous intéressons aux rapports entre les deux dimensions de traits tonals et à la modification de la structure formantique. À travers l’analyse des données acoustiques issues de 13 sujets locutrices, nous avons observé une divergence d’importance dans les intervalles F2-F3 et F3-F4, en fonction du ton. Cette divergence semble liée aux contrastes tonals en registre et non au x contours mélodiques. Cette d istinction semble dépendre d’ailleurs de la nature de voyelle.

pdf abs
Étude de la qualité vocale post-thyroïdectomie chez des patients souffrants ou non de paralysie récurrentielle (A post-thyroidectomy voice quality study in patients suffering or not from laryngeal paralysis)
Ming Xiu | Camille Fauth | Béatrice Vaxelaire | Jean-François Rodier | Pierre-Philippe Volkmar | Rudolph Sock

L’objet principal de cette étude est la qualité vocale après une thyroïdectomie. Cette opération provoque souvent une dégradation de la qualité vocale de façon permanente ou temporaire. La qualité vocale sera étudiée à l’aide d’indices aérodynamiques et acoustiques. Deux groupes de patients sont suivis et étudiés : un premier groupe de patients pour lesquels l’examen post-opératoire a révélé un défaut de mobilité de l’un des plis vocaux ; Un second groupe de patients pour lesquels l’examen post-opératoire n’a pas révélé de perturbation de la mobilité laryngée. Il s’agit d’une étude longitudinale dans laquelle la référence est constituée par la voix du locuteur en préopératoire. Les résultats préliminaires indiquent que l’ablation de la glande thyroïde modifie la voix des patients alors même que la mobilité laryngée est préservée. Tous les paramètres étudiés ont été modifiés. Le temps a toutefois un effet positif pour tous les locuteurs suivis, puisque leurs productions s’approchent, un mois après l’opération, des valeurs mesurées en préopératoire.

pdf abs
Etude par EMA des mouvements de la mâchoire inférieure durant les consonnes de l’arabe marocain (EMA study of jaw movements during Moroccan Arabic consonants)
Chakir Zeroual | Philip Hoole | Adamantios Gafos

Cette étude est basée sur des données obtenues à l’aide d’EMA (AG500) enregistrant les mouvements de la mâchoire inférieure (Minf) durant les consonnes labiales, coronales, vélaires, uvulaires, pharyngales et laryngales de l’arabe marocain dans les contextes aCa et iCi. Nous avons montré que l’implication de la Minf est cruciale durant /s S t T/ (S T : consonnes emphatiques). Le recul de la racine de la langue n’est pas nécessairement corrélé à la baisse de la Minf. Les consonnes apicales ne sont pas toujours associées à l’abaissement de la Minf. La Minf ne semble pas impliquée durant les laryngales et les pharyngales, ce qui est en accord avec les déductions de Goldstein (1995). Les mouvements verticaux et horizontaux de la Minf sont relativement indépendants.

pdf abs
Étude transversale du rythme de l’anglais chez des apprenants francophones (A cross-sectional study of rhythm in French students of English)
Quentin Michardière | Anne Guyot-Talbot | Emmanuel Ferragne | François Pellegrino

Dans cette étude, nous avons demandé à 3 groupes d’étudiants en anglais (niveaux L1, L2 et L3) de lire un dialogue en anglais afin d’évaluer la possibilité d’une amélioration de leur production sur le plan du rythme en fonction de leur niveau universitaire. Le dialogue a également été lu par des anglophones, et une traduction du dialogue en français a été enregistrée par des francophones dans le but d’établir un espace de référence pour l’anglais L1 et le français L1. Nous avons employé des mesures classiques du rythme s’appuyant sur la durée, et avons également exploré la pertinence de mesures basées sur l’enveloppe d’amplitude et le spectre de cette enveloppe. Nous constatons un manque de fiabilité des mesures classiques du rythme, et proposons quelques pistes.

pdf abs
Exploration de paramètres acoustiques dérivés de GMM pour l’adaptation non supervisée de modèles acoustiques à base de réseaux de neurones profonds (Exploring GMM-derived features for unsupervised adaptation of deep neural network acoustic models)
Natalia Tomashenko | Yuri Khokhlov | Anthony Larcher | Yannick Estève

L’étude présentée dans cet article améliore une méthode récemment proposée pour l’adaptation de modèles acoustiques markoviens couplés à un réseau de neurones profond (DNN-HMM). Cette méthode d’adaptation utilise des paramètres acoustiques dérivés de mixtures de modèles Gaussiens (GMM-derived features, GMMD ). L’amélioration provient de l’emploi de scores et de mesures de confiance calculés à partir de graphes construits dans le cadre d’un algorithme d’adaptation conventionnel dit de maximum a posteriori (MAP). Une version modifiée de l’adaptation MAP est appliquée sur le modèle GMM auxiliaire utilisé dans une procédure d’apprentissage adaptatif au locuteur (speaker adaptative training, SAT) lors de l’apprentissage du DNN. Des expériences menées sur le corpus Wall Street Journal (WSJ0) montrent que la technique d’adaptation non supervisée proposée dans cet article permet une réduction relative de 8, 4% du taux d’erreurs sur les mots (WER), par rapport aux résultats obtenus avec des modèles DNN-HMM indépendants du locuteur utilisant des paramètres acoustiques plus conventionnels.

pdf abs
Extraction automatique de contour de lèvre à partir du modèle CLNF (Automatic lip contour extraction using CLNF model)
Li Liu | Gang Feng | Denis Beautemps

Dans cet article nous proposons une nouvelle solution pour extraire le contour interne des lèvres d’un locuteur sans utiliser d’artifices. La méthode s’appuie sur un algorithme récent d’extraction du contour de visage développé en vision par ordinateur, CLNF pour Constrained Local Neural Field. Cet algorithme fournit en particulier 8 points caractéristiques délimitant le contour interne des lèvres. Appliqué directement à nos données audio-visuelles du locuteur, le CLNF donne de très bons résultats dans environ 70% des cas. Des erreurs subsistent cependant pour le reste des cas. Nous proposons des solutions pour estimer un contour raisonnable des lèvres à partir des points fournis par CLNF utilisant l’interpolation par spline permettant de corriger ses erreurs et d’extraire correctement les paramètres labiaux classiques. Les évaluations sur une base de données de 179 images confirment les performances de notre algorithme.

pdf abs
FN5, un modèle psycholinguistique informatique de la reconnaissance des mots parlés chez l’auditeur français, mis à la disposition des chercheurs et enseignants (FN5, a computational psycholinguistic model of spoken word recognition in French, made available to researchers and teachers)
Nicolas Léwy

Voici un modèle psycholinguistique informatique pour le français. Il s’appelle FN5 et simule la reconnaissance humaine de mots parlés, présentés seuls (déterminant, adjectif antéposé, substantif) ou en suites de deux mots (déterminant et substantif, adjectif antéposé et substantif). Le modèle contient un lexique de 17 668 mots et cela dans deux versions, française et Suisse romande. Grâce à une architecture connexionniste localiste à trois niveaux (traits distinctifs, phonèmes, mots) qui est enrichie de plusieurs innovations clés (processeur de position, groupements de connexions, et point d’isolation), le modèle peut reconnaître la plupart des mots et des suites qu’on lui présente (taux de succès entre 83.6% et 99.7%), et en plus, il est capable de reproduire un grand nombre d’effets trouvés lors d’études expérimentales (ex. fréquence, longueur, effacement du schwa, liaison, etc.). Le modèle, qui possède une interface graphique, est téléchargeable, et utilisable à la fois pour la recherche et pour l’enseignement.

pdf abs
Fusion d’espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )
Sebastien Delecraz | Frederic Bechet | Benoit Favre | Mickael Rouvier

L’identification du rôle d’un locuteur dans des émissions de télévision est un problème de classification de personne selon une liste de rôles comme présentateur, journaliste, invité, etc. À cause de la nonsynchronie entre les modalités, ainsi que par le manque de corpus de vidéos annotées dans toutes les modalités, seulement une des modalités est souvent utilisée. Nous présentons dans cet article une fusion multimodale des espaces de représentations de l’audio, du texte et de l’image pour la reconnaissance du rôle du locuteur pour des données asynchrones. Les espaces de représentations monomodaux sont entraînés sur des corpus de données exogènes puis ajustés en utilisant des réseaux de neurones profonds sur un corpus d’émissions françaises pour notre tâche de classification. Les expériences réalisées sur le corpus de données REPERE ont mis en évidence les gains d’une fusion au niveau des espaces de représentations par rapport aux méthodes de fusion tardive standard.

pdf abs
L’impact des variations temporelles intrinsèques et extrinsèques de la voyelle sur la relation consonne-voyelle : Étude translinguistique sur l’arabe jordanien et le français (The impact of extrinsic and intrisic vowel temporal variations on the consonant-vowel relationship : A trans-linguistic investigation on Jordanian Arabic and French)
Mohammad Abuoudeh | Olivier Crouzet

Cette étude permet d’explorer les variations spectrales engendrées par deux types de variations temporelles qui résultent respectivement de l’opposition de longueur vocalique et des variations de débit de parole. Deux protocoles expérimentaux ont été conçus, l’un en arabe jordanien et l’autre en français, pour examiner ce phénomène. Un intérêt particulier a été porté aux occlusives produites dans des séquences CVC dans le but d’étudier la consonne en position initiale et la coarticulation anticipatoire. La durée des voyelles et la fréquence des trois premiers formants au début et au milieu de chaque séquence ont été mesurées dans chaque condition de longueur / débit. Les équations de locus ont été utilisées afin de décrire la relation CV quand elle subit ces deux types de variations. Selon les résultats, la qualité de la voyelle et de la consonne est influencée dans l’opposition de durée et dans le débit de parole. Ce changement généré par les variations temporelles est détecté à l’aide des équations de locus. Ces dernières révèlent qu’il existe un chevauchement coarticulatoire plus important quand la durée de la voyelle décroît.

pdf abs
Incidence de la chirurgie naso-sinusienne sur la qualité vocale : étude d’un cas clinique (Impact of Sinus Surgery on Voice Quality: Case Study)
Lise Crevier Buchman | Angelique Amelot | Benedicte Mas | Mathilde Giron | Pierre Bonfils

Les fosses nasales participent à la résonance vocale et toute modification de ces structures peut altérer la qualité vocale. Le rôle des sinus comme résonateurs dans la production vocale reste plus controversé. Le but de notre étude prospective était d’explorer d’éventuelles modifications acoustiques chez un chanteur professionnel en pré et post-opératoire après chirurgie naso-sinusienne unilatérale. A partir de la lecture d’un texte, nous avons extrait les voyelles /a,i,u/ pour mesurer les paramètres acoustiques de fréquence (F0), des formants F1 et F2, de leur largeur de bande, et de qualité vocale (LTAS et H1*-H2*). L’étude a été complétée par une auto-évaluation de la qualité de voix. Nos résultats n’ont pas permis de mettre en évidence de différence statistiquement significative des paramètres acoustiques bien que le patient ait signalé une impression d’amélioration vocale chantée. Ces résultats pour le français confirment ceux de la littérature et peuvent servir à informer les patients.

pdf abs
Influence de la quantité de données sur une tâche de segmentation de phones fondée sur les réseaux de neurones (Phone-level speech segmentation with neural networks : influence of the amount of data )
Céline Manenti | Thomas Pellegrini | Julien Pinquier

Dans cet article, nous décrivons une étude expérimentale de segmentation de parole en unités acoustiques sous-lexicales (phones) à l’aide de réseaux de neurones. Sur le corpus de parole spontanée d’anglais américain BUCKEYE, une F-mesure de 68% a été obtenue à l’aide d’un réseau convolutif, en considérant une marge d’erreur de 10 ms. Cette performance est supérieure à celle d’un annotateur manuel, l’accord inter-annotateurs étant de 62%. Restreindre les données d’apprentissage à celles d’un unique locuteur, 30 minutes environ, a eu pour conséquence moins de 10% de perte et utiliser celles de 5 locuteurs a permis d’atteindre des résultats similaires à utiliser plus de données. Utiliser le modèle entraîné avec le corpus anglais sur un petit corpus d’une langue peu dotée a donné des résultats comparables à estimer un modèle avec des données de cette langue.

pdf abs
L’invasivité phonologique dans le traitement des anglicismes : une étude quantitative de trois langues (Phonological invasiveness in the treatment of loanwords)
Tomáš Duběda

Dans la présente étude, nous analysons, dans une perspective typologique, l’adaptation phonologique des anglicismes dans trois langues (français, allemand et tchèque). La classification des formes phonologiques, qui s’appuie sur un système de huit principes d’adaptation, a pour but d’établir le degré d’« invasivité phonologique » propre à chaque langue. L’approximation phonologique (substitution de phonèmes natifs aux phonèmes étrangers) semble être le principe fondamental dans les trois langues analysées, alors que la prononciation orthographique (phonétisation des graphèmes) intervient avant tout en français. La prononciation authentique (imitation phonologique de la langue source) n’est active qu’en allemand. Les mécanismes d’approximation phonologique sont plus invasifs en français que dans les deux autres langues, et ce notamment en ce qui concerne le système vocalique. Globalement, l’invasivité phonologique semble augmenter dans l’ordre allemand – tchèque – français.

pdf abs
Investigation glottographique et laryngoscopique de la transition entre les deux principaux mécanismes laryngés (Glottographic and laryngoscopic investigation of the transition between the two main laryngeal mechanisms)
Arthur Givois | Didier Demolin | Lise Crevier-Buchman | Angélique Amelot

Cet article étudie par une approche descriptive la transition entre le premier et le second mécanisme laryngé. Des mesures électroglottographiques ont été réalisées simultanément à des captures d’images par laryngoscopie sur deux sujets : une femme et un homme. Des différences de comportement entre les deux sujets ont été observées. Un mouvement vertical de grande amplitude du larynx est systématiquement observé au moment de la transition chez le sujet masculin, tandis que des modifications de petite amplitude de la distance entre paroi pharyngale et épiglotte, ou de la compression des plis aryépiglottiques sont remarquées chez le sujet féminin. Ces changements de configurations s’effectuent de façon continue chez cette dernière alors qu’un changement soudain de l’activité des plis vocaux a lieu à un instant précisément localisé pour les productions des deux sujets. Ces différences d’ajustements laryngés sont liées à des modifications des paramètres mécaniques dont dépendent la fréquence fondamentale et qui restent à estimer.

pdf abs
Modélisation bayésienne de la planification motrice des gestes de parole: Évaluation du rôle des différentes modalités sensorielles (Bayesian modeling of speech gesture motor planning: Evaluating the role of different sensory modalities )
Jean-François Patri | Julien Diard | Pascal Perrier

La prise en compte des informations auditives et proprioceptives dans le contrôle de la parole est mise en évidence par un nombre croissant de résultats expérimentaux. Cependant, les modèles de production imposent le plus souvent l’une ou l’autre des modalités, ou n’offrent pas de cadre formel pour évaluer leurs contributions respectives. Nous proposons d’explorer le rôle de ces modalités sensorielles dans la planification des gestes de parole à partir d’un modèle bayésien représentant la structure des connaissances mises en jeu dans cette tâche. Le modèle permet d’envisager trois mécanismes de planification, reposant sur la modalité auditive, proprioceptive ou sur les deux conjointement. Nous comparons des simulations obtenues par les deux premiers mécanismes de planification. Les résultats indiquent des réalisations articulatoires différentes mais donnant néanmoins des réalisations auditives qualitativement similaires dans leur variabilité.

pdf abs
Une méthode d’évaluation de la compréhension orale par choix d’image : application à de la parole dégradée par simulation de la presbyacousie (A method for assessing listening comprehension using image selection : application to speech degraded by presbycusis simulation)
Cynthia Magnen | Julien Tardieu | Lionel Fontan | Pascal Gaillard | Nathalie Spanghero-Gaillard

Nous présentons une méthode permettant d’évaluer la compréhension de la parole dégradée par simulation des effets de la presbyacousie, dans le calme et dans le bruit. Cette méthode intègre des phrases signifiantes et implique pour l’auditeur de sélectionner, parmi un ensemble de quatre images, celle qui correspond à l’énoncé qu’il entend. Le test présente de nombreux avantages méthodologiques comme l’immédiateté du score et le fait qu’il ne nécessite pas de faire répéter la phrase entendue. Les résultats obtenus montrent un effet significatif de la dégradation et du bruit du fond. La cohérence de ces effets avec les études précédentes sur la presbyacousie permet de valider cette méthode. Par ailleurs, la nature exacte du score mesuré dans ce test est discutée en le comparant avec le score d’intelligibilité obtenu par répétition d’items dans une précédente étude.

pdf abs
Optimiser l’adaptation en ligne d’un module de compréhension de la parole avec un algorithme de bandit contre un adversaire (Adversarial bandit for optimising online active learning of spoken language understanding)
Emmanuel Ferreira | Alexandre Reiffers-Masson | Bassam Jabaian | Fabrice Lefèvre

De nombreux modules de compréhension de la parole ont en commun d’être probabilistes et basés sur des algorithmes d’apprentissage automatique. Deux difficultés majeures, rencontrées par toutes les méthodes existantes sont : le coût de la collecte des données et l’adaptation d’un module existant à un nouveau domaine. Dans cet article, nous proposons un processus d’adaptation en ligne avec une politique apprise en utilisant un algorithme de type bandit contre un adversaire. Nous montrons que cette proposition peut permettre d’optimiser un équilibre entre le coût de la collecte des retours demandés aux utilisateurs et la performance globale de la compréhension du langage parlé après sa mise à jour.

pdf abs
Patrons Rythmiques et Genres Littéraires en Synthèse de la Parole (How to improve rhythmic patterns according to literary genre in synthesized speech ⇤ )
Elisabeth Delais-Roussarie | Damien Lolive | Hiyon Yoo | David Guennec

Ces vingt dernières années, la qualité de la parole synthétique s’est améliorée grâce notamment à l’émergence de nouvelles techniques comme la synthèse par corpus. Mais les patrons rythmiques obtenus ne sont pas toujours perçus comme très naturels. Dans ce papier, nous comparons les patrons rythmiques observés en parole naturelle et synthétique pour trois genres littéraires. Le but de ce travail est d’étudier comment le rythme pourrait être amélioré en synthèse de parole. La comparaison des patrons rythmiques est réalisée grâce à une analyse de la durée relativement à la structure prosodique, les données audio provenant de six comptines, quatre poèmes et deux extraits de conte. Les résultats obtenus laissent penser que les différences rythmiques entre parole naturelle et synthétique sont principalement dues au marquage de la structure prosodique, particulièrement au niveau des groupes intonatifs. De fait, le taux d’allongement des syllabes accentuées en fin de groupes intonatifs est beaucoup plus important en synthèse que dans la parole naturelle.

pdf abs
Une pénalité floue fondée phonologiquement pour améliorer la Sélection d’Unité (A Phonologically Motivated Penalty To Improve Unit Selection)
David Guennec | Damien Lolive

Les systèmes de synthèse par corpus reposent, sauf de rares exceptions, sur des coûts cibles et des coûts de concaténation pour sélectionner la meilleure séquence d’unités. Le rôle du coût de concaténation est de s’assurer que l’assemblage de deux segments de parole ne causera l’apparition d’aucun artefact acoustique. Pour cette tâche, des distances acoustiques (MFCC, F0) sont généralement utilisées, mais dans de nombreux cas cela ne suffit pas. Dans cet article, nous introduisons une pénalité héritée du domaine de la couverture de corpus dans le coût de concaténation afin de bloquer certaines concaténations en fonction de la classe phonologique des diphones à concaténer. En outre, une seconde version faisant appel à une fonction floue est proposée pour relâcher la pénalité en fonction du positionnement du coût de concaténation par rapport à sa distribution. Une évaluation objective montre que la pénalité est efficace et amène à un meilleur classement des séquences d’unités candidates au cours de la sélection. Une évaluation subjective révèle une performance supérieure de l’approche floue.

pdf abs
Perception audio-visuelle de séquences VCV produites par des personnes porteuses de Trisomie 21 : une étude préliminaire (Auditory-visual Perception of VCVs Produced by People with Down Syndrome: a Preliminary Study)
Alexandre Hennequin | Amélie Rochet-Capellan | Marion Dohen

La parole des personnes avec trisomie 21 (T21) présente une altération systématique de l’intelligibilité qui n’a été quantifiée qu’auditivement. Or la modalité visuelle pourrait améliorer l’intelligibilité comme c’est le cas pour les personnes « ordinaires ». Cette étude compare la manière dont 24 participants ordinaires perçoivent des séquences VCV voyelle-consonne-voyelle) produites par quatre adultes (2 avec T21 et 2 ordinaires) et présentées dans le bruit en modalités auditive, visuelle et audiovisuelle. Les résultats confirment la perte d’intelligibilité en modalité auditive dans le cas de locuteurs porteurs de T21. Pour les deux locuteurs impliqués, l’intelligibilité visuelle est néanmoins équivalente à celle des deux locuteurs ordinaires et compensent le déficit d’intelligibilité auditive. Ces résultats suggèrent l’apport de la modalité visuelle vers une meilleure intelligibilité des personnes porteuses de T21.

pdf abs
Perception des consonnes géminées en japonais langue étrangère par des apprenants francophones (Perception of geminate consonants in Japanese as a foreign language by French-speaking learners)
Akiko Takemura | Takeki Kamiyama

Le japonais présente une opposition phonémique entre les obstruantes simples et géminées, qui pose des difficultés aux apprenants non-natifs tant au niveau de la perception que de la production, notamment quand une opposition similaire est absente dans la langue des apprenants. La discrimination perceptive de cette opposition a été étudiée chez 19 apprenants francophones de deux niveaux différents de compétence et chez 6 auditeurs natifs à l’aide d’une expérience AXB avec des non-mots dysyllabiques prononcés par 2 locuteurs natifs du japonais de Tokyo. Les résultats montrent une différence significative entre les apprenants (10,91% d’erreurs en moyenne) et les natifs (3,86% en moyenne). Le taux d’erreurs était plus élevé quand l’accent lexical du mot testé était du type HB (haut-bas) que BH. Les auditeurs natifs ont également montré un taux d’erreur plus élevé pour la fricative /s/, et aussi quand la consonne est entourée des voyelles fermées /i/ et /u/.

pdf abs
La perception des séquences consonantiques non-natives par les locuteurs monolingues de mandarin (Perception of non-native consonant sequences by Mandarin monolingual speakers)
Qianwen Guan | Harim Kwon

Cette étude examine le rôle de la structure phonotactique native et des facteurs phonétiques dans la perception des séquences consonantiques non-natives. Des locuteurs monolingues de mandarin ont été testés dans les deux expériences suivantes: dans la première expérience, les locuteurs ont du décider s’ils entendaient une voyelle entre deux consonnes en écoutant des séquences intervocaliques-CC (akta) et leurs contrôles CVC (akata). Les participants mandarins monolingues ont tendance à percevoir une voyelle entre deux consonnes dans les deux séquences CC et CVC. Mais le pourcentage de la voyelle perçue varie selon les différentes séquences. Dans la deuxième expérience, les mêmes participants ont écouté des séquences CC initiales et intervocaliques (ktapa, akta) ainsi que CVC (katapa, akata) et les ont transcrites en Pinyin. Les stratégies observées dans la transcription: l’épenthèse, la métathèse, l’omission de C1 et celle de C2, montrent que les participants sont sensibles aux facteurs phonétiques. Les résultats des deux expériences suggèrent que la phonotactique native ainsi que des facteurs phonétiques affectent la perception des séquences non-natives.

pdf abs
Perception et production de voyelles de l’anglais par des apprenants francophones : effet d’entraînements en perception et en production (Perception and production of English vowels by French learners: effect of perception and production trainings)
Jennifer Krzonowski | Emmanuel Ferragne | François Pellegrino

Cette étude propose de tester l’effet de deux entraînements, en perception et en production, sur l’acquisition de voyelles de l’anglais britannique par des francophones. L’étude se focalise sur deux régions de l’espace acoustique pour lesquelles plusieurs catégories phonologiques existent en anglais alors qu’une seule existe en français. Trois groupes ont été constitués : l’un recevant un entraînement de type High Variability Perceptual Training, un second recevant un entraînement en production et le troisième constituait un groupe contrôle ne recevant pas d’entraînement. Les performances des participants ont été évaluées avant et après entraînement en perception et en production. Les résultats semblent montrer un effet de l’entraînement en perception sur les performances en perception et en production et un effet plus restreint de l’entraînement en production. Mais leur interprétation reste difficile du fait d’un effet test/re-test observé sur le groupe contrôle.

pdf abs
Perception native des voyelles catalanes produites par des locutrices multilingues (Native perception of Catalan vowels uttered by female multilingual speakers)
Cynthia Magnen | Josefina Carrera-Sabaté | Pascal Gaillard

Cette étude porte sur les voyelles catalanes produites par des adolescentes multilingues en CatalanCastillan ayant pour langue maternelle soit le Catalan, soit le Roumain, soit l’Arabe du Maghreb. Nous proposons à vingt-et-un auditeurs catalanophones natifs un Test de Catégorisation Libre des voyelles produites dans ce contexte multilingue. Ce faisant, nous testons le modèle Automatic Selective Perception (ASP - Strange, 2011) qui stipule qu’en fonction de la variabilité des stimuli et de la tâche proposée, les auditeurs réalisent un traitement des stimuli selon un mode phonétique ou phonologique. Les résultats indiquent que le traitement des stimuli est double : les voyelles moyennes sont traitées selon un mode phonétique, tandis que les voyelles extrêmes sont traitées selon un mode phonologique. L’assimilation de voyelles d’une catégorie vocalique à une autre informe sur la qualité des réalisations non natives et témoigne de l’influence de la L1.

pdf abs
Peut-on caractériser globalement une « qualité d’acte expressif » : de « breathy voice » à « breathy turn taking » dans la glu socio-affective de l’interaction humain-robot ? (Multidimensional prosodic style, as characteristics of the “gluing” relation process: extension of “breathiness” from voice quality to “turn talk quality”)
Liliya Tsvetanova | Véronique Aubergé | Yuko Sasa

L’interaction face-à-face est considérée ici comme un système émergeant, englobant les soussystèmes en synchronie des interactants inscrits, à travers leur personnalité, dans leur rôle social, leurs motivations, leurs intentions, leurs états socio-affectifs. L’interaction est instanciée par une « glu » socio-affective pour laquelle nous testons une dimension altruiste, orthogonale à la dimension de dominance, expérimentée dans le scénario écologique Emoz (Sasa et Aubergé, 2014) pour des personnes âgées donnant des commandes domotiques de forme imposée à un robot. Le dialogue est conduit par des feedbacks socio-affectifs primitifs du robot supposés « gluer » progressivement. Nous montrons que la variation faite par les sujets autour des commandes référentes, non seulement suit un décours dynamique de « glu » progressive, mais que le comportement communicatif des sujets est globalement inscrit dans des caractéristiques d’« intimité-care» d’une production breathy de toutes les modalités (voix, prosodie, paraphrasage lexico-morpho-syntaxique, timing, posture, direction du regard, proxémie, déplacement).

pdf abs
Phonétisation statistique adaptable d’énoncés pour le français (Adaptive statistical utterance phonetization for French ⇤ )
Gwénolé Lecorvé | Damien Lolive

Les méthodes classiques de phonétisation d’énoncés concatènent les prononciations hors-contexte des mots. Ce type d’approches est trop faible pour certaines langues, comme le français, où les transitions entre les mots impliquent des modifications de prononciation. De plus, cela rend difficile la modélisation de stratégies de prononciation globales, par exemple pour modéliser un locuteur ou un accent particulier. Pour palier ces problèmes, ce papier présente une approche originale pour la phonétisation du français afin de générer des variantes de prononciation dans le cas d’énoncés. Par l’emploi de champs aléatoires conditionnels et de transducteurs finis pondérés, cette approche propose un cadre statistique particulièrement souple et adaptable. Cette approche est évaluée sur un corpus de mots isolés et sur un corpus d’énoncés prononcés.

pdf abs
Pics mélodiques prétoniques en portugais brésilien : une étude quantitative (Pre-stress pitch peaks in Brazilian Portuguese: a quantitative study)
Plínio Barbosa | Philippe Boula de Mareüil

Le présent travail porte sur un trait prosodique assez typique du portugais brésilien : un pic mélodique en position prétonique en fin d’énoncé déclaratif. Il vise à quantifier le phénomène, à partir d’enregistrements de cinq hommes et cinq femmes de l’état de São Paulo, en lecture et en narration. Il en résulte que des montées sur les prétoniques de 4 demi-tons suivies de descentes de 8 demi-tons, en moyenne, s’observent dans les deux styles de parole, chez les femmes. Chez les hommes, ces valeurs sont respectivement de 3 et 7 demi-tons. Ces montées-descentes d’une tierce et d’une quinte, respectivement, peuvent donner au portugais brésilien cette musicalité particulière et, puisque les descentes sont plus rapides chez les femmes, elles ouvrent des perspectives sociolinguistiques intéressantes.

pdf abs
Préservation du pattern syllabique iambique dans la production des locuteurs dysarthriques (The preservation of iambic syllabic pattern in the production of dysarthric speakers)
Laurianne Georgeton | Meunier Christine

Ce travail vise à évaluer une éventuelle dégradation du pattern rythmique iambique dans la production de locuteurs atteints de différents types de dysarthrie. Ce pattern se traduit par une structure court-long dans les mots dissyllabiques. Cette structure est très robuste en français aussi bien en production qu¶en perception. Par ailleurs, chez des locuteurs dysarthriques, des perturbations prosodiques et donc rythmiques sont souvent observées. Ainsi, ces patients peuventils maintenir ce pattern iambique dans leurs productions? Les résultats montrent que le pattern rythmique iambique est bien conservé chez toutes les populations dysarthriques aussi bien en lecture qu¶en parole spontanée. Ce pattern est en général plus marqué en spontané qu¶en lecture et la population contrôle se démarque des populations dysarthriques par un pattern plus marqué en lecture, mais plus encore en spontané. Ce pattern rythmique semble donc robuste même s¶il semble être affecté quand la sévérité de la maladie augmente.

Quelles sont les caractéristiques acoustiques et articulatoires des voyelles parlées et chantées du Cantu in Paghjella (polyphonie corse à trois voix), en fonction du chanteur, de la voyelle et de la fréquence fondamentale ? L’analyse acoustique des quatre premiers formants de la parole au chant et celle des mouvements articulatoires lingual et labial, montrent généralement (i) une significative augmentation de F1 avec abaissement lingual mais fermeture labiale, en lien avec une corrélation entre F0 et F1 ; (ii) une baisse de F2 pour les voyelles antérieures, une postériorisation linguale et un recul de l’ombre hyoïdienne uniquement pour le bassu ; (iii) une nette augmentation de F3 et F4 surtout chez le bassu ; (iv) une augmentation du Singing Power Ratio surtout chez les bassu et secunda. Ses valeurs sont toutefois inférieures à celles de chanteurs lyriques, et ne correspondant pas comme ces derniers à un rapprochement de F3 et F4.

pdf abs
La prosodie du focus dans les parlers algérois et oranais (The prosody of focus in Algiers and Oran dialects)
Ismaël Benali

Le but de cette étude est d’étudier les caractéristiques prosodiques de différents types de focus dans les parlers algérois et oranais. Il ressort de l’analyse acoustique des productions des locuteurs que les récurrences des schèmes prosodiques qui distinguent les deux parlers sont observées dans deux types de focus : le focus étroit d’insistance quand il est placé à la frontière d’un groupe intonatif et le focus interrogatif. Le premier est réalisé dans le parler algérois par un contour montant descendant. Dans le parler oranais, il est produit par un contour plat ou légèrement montant ou descendant. On retrouve, dans le focus interrogatif, le mêmes contour intonatif plus amplifié du focus d’insistance chez les Algérois alors que chez les Oranais la dernière syllabe est toujours montante précédée d’une descente. Le focus de contraste est produit différemment dans le même dialecte avec plus d’allongement en oranais. La réalisation du focus large n’est pas distinctive.

pdf abs
Que disents nos silences? Apport des données acoustiques, articulatoires et physiologiques pour l’étude des pauses silencieuses (What do our silences say? Contribution of acoustic, articulatory and physiological data to the study on silent pauses)
Lalain Muriel | Legou Thierry | Fauth Camille | Hirsch Fabrice | Didirkova Ivana

Si la rhétorique s’est intéressée très tôt à la pause, il a fallu attendre le XXème siècle pour que d’autres disciplines – la psycholinguistique, le traitement automatique des langues, la phonétique – accordent à ces moments de silence l’intérêt qu’ils méritent. Il a ainsi été montré que ces ruptures dans le signal acoustique, loin de signer une absence d’activité, constituaient en réalité le lieu d’une activité physiologique (la respiration) et/ou cognitive (planification du discours) qui participent tout autant au message que la parole elle-même. Dans cette étude pilote, nous proposons des observations et des pistes de réflexions à partir de l’analyse des pauses silencieuses dans un corpus de parole lue et semi dirigée. Nous mettons notamment en évidence l’apport de l’analyse conjointe de données acoustiques, articulatoires (EMA) et physiologiques (respiratoires) pour l’identification, parmi les pauses silencieuses, des pauses respiratoires, syntaxiques et d’hésitation.

pdf abs
Que nous apprennent les gros corpus sur l’harmonie vocalique en français ? (What can we learn from big speech corpora about French vowel harmony?)
Giuseppina Turco | Cécile Fougeron | Nicolas Audibert

Afin de mieux identifier le poids relatif des différents facteurs décrits dans la littérature comme influençant le phénomène d’harmonie vocalique (HV) en français, 33k mots extraits de deux corpus de parole continue et présentant un contexte d’HV possible V1C(C)V2 (V1∈e,ɛ,o,ɔ) sont analysés. Le degré d’HV est mesuré en termes d’abaissement du F1 de V1 induit par la présence d’une V2 /+haut/ (fermée ou mi-fermée) par rapport à une V2 /-haut/ (ouverte ou mi-ouverte). Les résultats montrent une HV plus importante pour les voyelles moyennes postérieures que pour les antérieures, et plus faible lorsque l’orthographe favorise une prononciation mi-fermée de V1. Comme attendu, l’HV est plus forte quand V1 est séparé de V2 par une consonne labiale vs. linguale ou par un cluster consonantique sous-jacent vs. un cluster résultant de la chute d’un schwa. En revanche, le style de parole (conversationnelle vs. journalistique) a un effet plus nuancé que celui attendu.

pdf abs
Quelle(s) mesure(s) de similarité prosodique comme évaluation de l’imitation ? (Which measure(s) of prosodic similarity as an evaluation of imitation?)
Olivier Nocaudie | Corine Astésano

La performance imitative des locuteurs varie de celle du professionnel, expert, à celle du naïf, plus ou moins talentueux. L’étude de l’imitation souligne la difficulté pour trouver des indices mesurables de la réussite d’une imitation. Dans cette étude exploratoire, des contours de f0 recueillis au fil de tâches d’imitation sont testés au moyen d’une double approche : mesure objective par le biais de deux mesures de la similarité prosodique reportées dans la littérature et évaluation perceptive par un panel de 15 auditeurs naïfs. Nos premiers résultats indiquent une bonne corrélation entre les deux approches et soulèvent la question du choix de l’indice mesurable qui rendrait le mieux compte d’une imitation au niveau tonal. Ils soulignent également la variabilité interindividuelle des comportements imitatifs en parole tout en ouvrant des perspectives intéressantes dans le domaine de la formation à la phonétique corrective par la Méthode Verbotonale.

L’intelligibilité de la parole se définit comme le degré de précision avec lequel un message est compris par un auditeur. A ce titre, la perte d’intelligibilité représente souvent une plainte importante pour les patients atteints de troubles de production de la parole, puisqu’elle participe à la diminution de la qualité de vie au niveau communicationnel. Plusieurs outils existent actuellement pour évaluer l’intelligibilité mais aucun ne satisfait pleinement les contraintes cliniques. Dans une première étude, nous avons adapté au français la version 2 du Frenchay Dysarthria Assessment, un test reconnu dans le milieu anglo-saxon pour l’évaluation de locuteurs dysarthriques. Nous avons créé le corpus de mots français en nous appuyant sur les critères définis dans le FDA-2 puis nous avons testé le protocole sur une cinquantaine de locuteurs. Les résultats sont satisfaisants mais divers biais méthodologiques nous ont conduits à poursuivre notre démarche en proposant des listes de pseudo-mots apparentant le test à du décodage acoustico-phonétique.

pdf abs
Réalisation phonétique et contraste phonologique marginal : une étude automatique des voyelles du roumain (Phonetic realization and marginal phonemic contrast : an automatic study of the Romanian vowels)
Ioana Vasilescu | Margaret Renwick | Camille Dutrey | Lori Lamel | Biana Vieru

Cet article est dédié à l’analyse acoustique des voyelles du roumain : des productions en parole continue sont comparées à des prononciations “de laboratoire”. Les objectifs sont : (1) décrire les traits acoustiques des voyelles en fonction du style de parole ; (2) estimer la relation entre traits acoustiques et contrastes phonémiques de la langue ; (3) estimer dans quelle mesure l’étude de l’oral apporte des éclairages au sujet des attributs phonémiques des voyelles centrales [2] et [1], dont le statut (phonèmes vs allophones) est controversé. Nous montrons que les traits acoustiques sont comparables pour la parole journalistique vs contrôlée pour l’ensemble de l’inventaire sauf [2] et [1]. Dans la parole contrôlée [2] et [1] sont distinctes, mais confondues en faveur du timbre [2] à l’oral. La confusion de timbres n’est pas source d’inintelligibilité car [2] et [1] sont en distribution quasicomplémentaire. Ce résultat apporte des éclairages sur la question du contraste phonémique graduel et marginal (Goldsmith, 1995; Scobbie & Stuart-Smith, 2008; Hall, 2013).

pdf abs
La reconnaissance des mots dans la parole accentuée : Une étude en laboratoire et à l’extérieur. (Mispronunciations slow down word recognition: A study using touchscreens in the lab and the real world)
Delphine Deï | Page Piccinini | Isabelle Dautriche | Marieke Van Heugten | Alejandrina Cristia

Des travaux récents suggèrent que les enfants et les adultes sont initialement ralentis dans leur compréhension des mots qui n’ont pas été prononcés de façon standard. Néanmoins, quand ils font face à un interlocuteur qui à un discours accentué, ils développent rapidement des stratégies spécifiques qui leur permettent de comprendre même des prononciations atypiques. Cependant, ces résultats sont typiquement issus de recherches en laboratoire, où l’attention des participants se concentre sur une tâche unique qui leur demande peu de ressources. Afin de dépasser ces limitations, nous avons mené une expérience de reconnaissance de mots sur tablette tactile, en évaluant des enfants et des adultes, en laboratoire et dans l’environnement naturel de chaque groupe. Nous avons constaté que des déviations de prononciation dans la parole accentuée ralentissent la reconnaissance des mots, chez des enfants et adultes, tant dans le laboratoire que dans des environnements naturels.

pdf abs
Répartition des phonèmes réduits en parole conversationnelle. Approche quantitative par extraction automatique (The distribution of reduced phoneme in conversational speech)
Meunier Christine | Brigitte Bigi

Cette étude vise à mieux comprendre la répartition des réductions phonétiques présentes dans la production de parole. Nous avons sélectionné l! ensemble des phonèmes les plus courts (30ms) à partir de l! alignement d! un corpus de parole conversationnelle. Cette version contenant uniquement les phonèmes courts (V1) est comparée à la version contenant l! alignement de tous les phonèmes du corpus (V0). Les deux versions sont mises en relation avec l! annotation des mots et de leur catégorie syntaxique. Les résultats montrent que les liquides, les glissantes et les voyelles fermées sont plus représentées dans V1 que dans V0. Par ailleurs, la nature et la catégorie syntaxique des mots modulent la distribution des phonèmes en V1. Ainsi, la nature instable du /l/, ainsi que sa présence dans de très nombreux pronoms et déterminants, en fait le phonème le plus marqué par la réduction. Enfin, la fréquence des mots semble montrer des effets contradictoires.

pdf abs
Réseau de neurones convolutif pour l’évaluation automatique de la prononciation (CNN-based automatic pronunciation assessment of Japanese speakers learning French )
Thomas Pellegrini | Lionel Fontan | Halima Sahraoui

Dans cet article, nous comparons deux approches d’évaluation automatique de la prononciation de locuteurs japonophones apprenant le français. La première, l’algorithme standard appelé Goodness Of Pronunciation (GOP), compare les vraisemblances obtenues lors d’un alignement forcé et lors d’une reconnaissance de phones sans contrainte. La deuxième, nécessitant également un alignement préalable, fait appel à un réseau de neurones convolutif (CNN) comme classifieur binaire, avec comme entrée des trames de coefficients spectraux. Les deux approches sont évaluées sur deux phonèmes cibles /R/ et /v/ du français, particulièrement difficiles à prononcer pour des Japonophones. Les paramètres du GOP (seuils) et du CNN sont estimés sur un corpus de parole lue par des locuteurs natifs du français, dans lequel des erreurs de prononciation artificielles sont introduites. Un gain de performance relatif de 13,4% a été obtenu avec le CNN, avec une précision globale de 72,6%, sur un corpus d’évaluation enregistré par 23 locuteurs japonophones.

pdf abs
Rôle des contextes lexical et post-lexical dans la réalisation du schwa : apports du traitement automatique de grands corpus (Role of lexical and post-lexical contexts in French schwa realisations : benefits of automatic processing of large corpora )
Yaru Wu | Martine Adda-Decker | Cécile Fougeron

Le rôle du contexte est connu dans la réalisation ou non du schwa en français. Deux grands corpus oraux de parole journalistique (ETAPE) et de parole familière (NCCFr), dans lesquels la realisation de schwa est déterminée à partir d’un alignement automatique, ont été utilisés pour examiner la contribution du contexte au sein du mot contenant schwa (lexical) vs. au travers de la frontière avec le mot précédent (post-lexical). Nos résultats montrent l’importance du contexte pré-frontière dans l’explication de la chute du schwa dans la première syllabe d’un mot polysyllabique en parole spontanée. Si le mot précédant se termine par une consonne, nous pouvons faire appel à la loi des trois consonnes et au principe de sonorité pour expliquer des différences de comportement en fonction de la nature des consonnes en contact.

pdf abs
Des Réseaux de Neurones avec Mécanisme d’Attention pour la Compréhension de la Parole (Exploring the use of Attention-Based Recurrent Neural Networks For Spoken Language Understanding )
Edwin Simonnet | Paul Deléglise | Nathalie Camelin | Yannick Estève

L’étude porte sur l’apport d’un réseau de neurones récurrent (Recurrent Neural Network RNN) bidirectionnel encodeur/décodeur avec mécanisme d’attention pour une tâche de compréhension de la parole. Les premières expériences faites sur le corpus ATIS confirment la qualité du système RNN état de l’art utilisé pour cet article, en comparant les résultats obtenus à ceux récemment publiés dans la littérature. Des expériences supplémentaires montrent que les RNNs avec mécanisme d’attention obtiennent de meilleures performances que les RNNs récemment proposés pour la tâche d’étiquetage en concepts sémantiques. Sur le corpus MEDIA, un corpus français état de l’art pour la compréhension dédié à la réservation d’hôtel et aux informations touristiques, les expériences montrent qu’un RNN bidirectionnel atteint une f-mesure de 79,51 tandis que le même système intégrant le mécanisme d’attention permet d’atteindre une f-mesure de 80,27.

Les applications de compréhension du langage parlé sont moins performantes si les documents transcrits automatiquement contiennent un taux d’erreur-mot élevé. Des solutions récentes proposent de projeter ces transcriptions dans un espace de thèmes, comme par exemple l’allocation latente de Dirichlet (LDA), la LDA supervisée ainsi que le modèle author-topic (AT). Une représentation compacte originale, appelée c-vector, a été récemment introduite afin de surmonter la difficulté liée au choix de la taille de ces espaces thématiques. Cette représentation améliore la robustesse aux erreurs de transcription, en compactant les différentes représentations LDA d’un document parlé dans un espace réduit. Le défaut majeur de cette méthode est le nombre élevé de sous-tâches nécessaires à la construction de l’espace c-vector. Cet article propose de corriger ce défaut en utilisant un cadre original fondé sur un espace de caractéristiques robustes de faible dimension provenant d’un ensemble de modèles AT considérant à la fois le contenu du dialogue parlé (les mots) et la classe du document. Les expérimentations, conduites sur le corpus DECODA, montrent que la représentation proposée permet un gain de plus de 2.5 points en termes de conversations correctement classifiées.

pdf abs
Stratégies d’adaptation de la vitesse d’articulation lors de conversations spontanées entre locuteurs natifs et non-natifs (Adaptation of articulation rate in spontaneous speech between native speakers and L2 learners)
Barbara Kühnert | Tanja Kocjančič Antolík

Cet article examine la vitesse d’articulation dans un corpus de conversations spontanées entre locuteurs natifs et non-natifs. L’objectif est d’étudier (i) dans quelle mesure les locuteurs natifs adaptent dans leur L1 leur vitesse d’articulation aux apprenants L2 et (ii) dans quelle mesure les deux locuteurs en interaction ont tendance à rapprocher ou à dissocier leurs caractéristiques temporelles au cours d’une conversation. Les données proviennent du corpus SITAF d’interactions tandem en anglais-français. A ce jour, 10 sujets ont été analysés, chacun ayant été enregistré dans trois conditions différentes : en utilisant sa L1 avec un autre locuteur natif, en utilisant sa L1 avec un apprenant L2, et en utilisant sa L2 avec un interlocuteur parlant sa propre L1. Les résultats indiquent que les propriétés rythmiques de la L1 ont une nette influence sur les variations de la vitesse d’articulation des locuteurs non seulement lorsqu’ils interagissent dans leur L2 mais également dans leurs stratégies d’adaptation lorsqu’ils interagissent avec des apprenants.

pdf abs
Stress, charge cognitive et signal de parole : étude exploratoire auprès de pilotes de chasse. (Stress, cognitive load and speech signal : an exploratory study among fighter pilots)
Stavaux Luc | Margaux Albart | Véronique Delvaux | Kathy Huet | Myriam Piccaluga | Bernard Harmegnies

Cet article traite des effets de la charge cognitive sur la fréquence fondamentale de pilotes de F-16 placés dans un scénario de vol de nuit. La charge cognitive a été estimée à l’aide de paramètres liés à la tâche (hétéro-évaluation), à l’individu (anxiété, auto-évaluation du stress ressenti) et à la situation (simulation contrôlée). Nos résultats montrent que l’écart mélodique est un bon candidat pour évaluer le niveau de la charge cognitive, même si la relation entre eux présente des profils individuels spécifiques. La création d’une typologie des situations de communication, l’adjonction d’autres indices acoustiques et le croisement avec des données physiologiques constituent les perspectives de cette étude.

pdf abs
Structure prosodique des langues romanes (Prosodic Structures of Romance Languages)
Philippe Martin

La description phonologique de la structure prosodique des langues romanes apparait similaire lorsque les interactions entre les accents mélodiques est prise en compte (ce qui n’est pas le cas dans la théorie autosegmentale-métrique). L’analyse acoustique de plus de 2600 énoncés lus et spontanés suggère que la réalisation des accents mélodiques, décrits en termes de contours mélodiques plutôt que de cibles tonales, indiquent avec les contours de frontière, des relations de dépendance « vers la droite » entre groupes accentuels. Ces relations permettent par incrémentation successive dans l’axe du temps la reconstitution par l’auditeur de la structure prosodique voulue par le locuteur. Dans ce cadre théorique, les langues romanes (italien, espagnol, catalan, portugais, roumain) utilisent les mêmes contours phonologiques pour indiquer les relations de dépendance menant au codage de la structure prosodique. Le français, dépourvu d’accent lexical, utilise un système de contours différent.

Nous présentons une méthode de prédiction de contours médiosagittaux des organes orofaciaux de la parole et la déglutition à partir d’images IRM dynamiques. Pour chaque locuteur, un ensemble de 60 images représentatives pour lesquelles les contours ont été tracés manuellement permet d’entraîner des modèles ACP d’images et de contours articulatoires, ainsi qu’un modèle multilinéaire qui prédit les paramètres des contours à partir des paramètres des images. Les contours obtenus sont ensuite corrigés par des modèles de forme actifs (ASM) modifiés utilisant les informations locales de profils d’intensité de pixels le long des normales aux contours. Les performances de cette méthode (erreurs moyennes « points à contour » entre 0,57 et 0,70 mm) sont insensibles au type de séquence IRM (écho de gradient avec échantillonnage synchronisé ou écho de gradient radial hautement sous-échantillonné), sont meilleures que celles de la littérature, et rendent possible le traitement de volumineux corpus d’images IRM dynamiques.

pdf abs
Sur les traces acoustiques de /ʃ/ et /ç/ en allemand L2 (Acoustic tracing of /S/ and /ç/ in German L2)
Jane Wottawa | Martine Adda-Decker

Les apprenants français de l’allemand ont des difficultés à produire la fricative palatale sourde allemande /ç/ (Ich-Laut) et ont tendance à la remplacer par la fricative post-alvéolaire /S/. Nous nous demandons si avec des mesures acoustiques ces imprécisions de production peuvent être quantifiées d’une manière plus objective. Deux mesures acoustiques ont été examinées afin de distinguer au mieux /S/ et /ç/ dans un contexte VC en position finale de mot dans des productions de locuteurs germanophones natifs. Elles servent ensuite à quantifier les difficultés de production des apprenants français. 285 tokens de 20 locuteurs natifs et 20 locuteurs L2 ont été analysés. Les mesures appliquées sont le centre de gravité spectral et des rapports d’intensité par bande de fréquence. Sur les productions de locuteurs natifs, les résultats montrent que la mesure la plus fiable pour distinguer acoustiquement /S/ et /ç/ est le ratio d’intensité entre fréquences hautes (4-7 kHz) et basses (1-4 kHz). Les mesures confirment également les difficultés de production des locuteurs natifs français.

pdf abs
Syllabe CVC et cycle mandibulaire : une étude articulatoire des asymétries. Le cas du vietnamien (CVC syllable and jaw cycle: an articulatory study of asymmetries)
Thi Thuy Hien Tran | Nathalie Vallée | Silvain Gerber

Cette étude se situe dans le cadre d’un projet qui tente d’établir le lien entre asymétries phonétique et phonologique de la syllabe, plus spécifiquement le lien entre caractéristiques du geste mandibulaire et MOP, Maximum Onset Principle, principe phonologique empirique qui affecte les segments consonantiques à la position initiale de syllabe plutôt que finale. Plusieurs travaux antérieurs sur l’anglais américain ont montré l’existence d’asymétries au niveau des phases du cycle mandibulaire qui pourraient expliquer certaines tendances des structures syllabiques et notamment la structure canonique CV (plutôt que VC). Dans ce projet, une première étude sur le français a confirmé un patron d’asymétries mais inverse à celui trouvé pour l’anglais. Nous présentons les premiers résultats obtenus pour le vietnamien. Les résultats sont discutés dans deux cadres théoriques, Frame/Content Theory et Articulatory Phonology, le premier attribuant un rôle fondamental au geste mandibulaire dans la phonologie de la syllabe, le second ne lui concédant qu’un rôle secondaire.

pdf abs
De l’utilisation de descripteurs issus de la linguistique computationnelle dans le cadre de la synthèse par HMM (Toward the use of information density based descriptive features in HMM based speech synthesis)
Sébastien Le Maguer | Bernd Moebius | Ingmar Steiner | Damien Lolive

Durant les dernières décennies, la modélisation acoustique effectuée par les systèmes de synthèse de parole paramétrique a fait l’objet d’une attention particulière. Toutefois, dans la plupart des systèmes connus, l’ensemble des descripteurs linguistiques utilisés pour représenter le texte reste identique. Plus specifiquement, la modélisation de la prosodie reste guidée par des descripteurs de bas niveau comme l’information d’accentuation de la syllabe ou bien l’étiquette grammaticale du mot. Dans cet article, nous proposons d’intégrer des informations basées sur la prédictibilité d’un évènement (la syllabe ou le mot). Plusieurs études indiquent une corrélation forte entre cette mesure, fortement présente dans la linguistique computationnelle, et certaines spécificités lors de la production humaine de la parole. Notre hypothèse est donc que l’ajout de ces descripteurs améliore la modélisation de la prosodie. Cet article se focalise sur une analyse objective de l’apport de ces descripteurs sur la synthèse HMM pour la langue anglaise et française.

pdf abs
Utilisation des représentations continues des mots et des paramètres prosodiques pour la détection d’erreurs dans les transcriptions automatiques de la parole (Combining continuous word representation and prosodic features for ASR error detection)
Sahar Ghannay | Yannick Estève | Nathalie Camelin | Camille Dutrey | Fabian Santiago | Martine Adda-Decker

Récemment, l’utilisation des représentations continues de mots a connu beaucoup de succès dans plusieurs tâches de traitement du langage naturel. Dans cet article, nous proposons d’étudier leur utilisation dans une architecture neuronale pour la tâche de détection des erreurs au sein de transcriptions automatiques de la parole. Nous avons également expérimenté et évalué l’utilisation de paramètres prosodiques en suppléments des paramètres classiques (lexicaux, syntaxiques, . . .). La principale contribution de cet article porte sur la combinaison de différentes représentations continues de mots : plusieurs approches de combinaison sont proposées et évaluées afin de tirer profit de leurs complémentarités. Les expériences sont effectuées sur des transcriptions automatiques du corpus ETAPE générées par le système de reconnaissance automatique du LIUM. Les résultats obtenus sont meilleurs que ceux d’un système état de l’art basé sur les champs aléatoires conditionnels. Pour terminer, nous montrons que la mesure de confiance produite est particulièrement bien calibrée selon une évaluation en terme d’Entropie Croisée Normalisée (NCE).

pdf abs
Variabilité des syllabes réalisées par des apprenants de l’anglais (Analysing syllable variability in a French learner corpus of English)
Nicolas Ballier | Philippe Martin | Maelle Amand

Cette contribution analyse la segmentation syllabique des francophones du corpus d’apprenant d’anglais ANGLISH (Tortel 2009). A partir d’une méthode d’alignement par alignement forcé, on montre la pertinence d’une analyse de l’interlangue fondée sur la comparaison des durées des syllabes. La comparaison des réalisations est ici centrée sur une typologie des syllabes fondée sur des propriétés distributionnelles, accentuelles et où l’interlangue tient sa place (risques d’isosyllabicité les plus manifestes pour les réalisations des francophones). La variabilité des réalisations des syllabes est appréciée en fonction des propriétés positionnelles, accentuelles et structurelles des syllabes. L’étude démontre l’intérêt d’une approche fonctionnelle des syllabes, plus pertinente que les intervalles interconsonantiques et intervocaliques inspirés de Ramus et al. (1999) pour la discrimination du niveau des locuteurs.

pdf abs
Variabilité du geste palatal : effet du locuteur, de la structure syllabique et de l’accent sur différents types de consonnes en russe (Palatal gesture variability: speaker, stress and syllabic structure effects in Russian)
Ekaterina Biteeva Lecocq | Nathalie Vallée | Silvain Gerber | Christophe Savariaux

Les linguistes se sont régulièrement penchés sur la description du trait consonantique [+palatal] ; pourtant, le manque de données expérimentales constitue un obstacle au classement des consonnes concernées. Peu de travaux ont abordé la question du contrôle du geste lingual dans l’articulation palatale. Cependant, ils montrent que celui-ci semble bien plus complexe que dans d’autres consonnes. En russe, la plupart des consonnes possèdent une contrepartie palatalisée ce qui permet d’étudier les différences de réalisation du trait palatal au sein du même système. Nous proposons ici, à partir de données acquises avec un articulographe électromagnétique, de caractériser la variabilité du geste palatal impliqué dans la réalisation de différents types de consonnes palatalisées et prépalatales du russe en fonction des facteurs locuteur, accent et structure syllabique.

pdf abs
Variation prosodique et traduction poétique (LSF/français) : Que devient la prosodie lorsqu’elle change de canal ? (Prosodic variation and poetic translation (LSF/French): What happens to prosody with a channel change?)
Fanny Catteau | Marion Blondel | Coralie Vincent | Patrice Guyot | Dominique Boutet

L’étude de la prosodie des langues vocales repose en partie sur la mesure des paramètres de durée, d’intensité et de fréquence sonores. Les langues des signes, quant à elles, empruntent le canal visuogestuel et mobilisent des articulateurs manuels et non manuels (buste, tête, éléments du visage). Notre étude a pour objectif d’établir des outils permettant de comparer, au niveau prosodique, la traduction en français de séquences poétiques et la version originale en langue des signes française (LSF). Nous avons recueilli des données vidéo augmentées de capture de mouvement – qui offrent plusieurs pistes d’exploration des paramètres prosodiques pour la LSF – ainsi que des données audio des traductions en français – qui révèlent les stratégies des interprètes pour interpréter la variation prosodique.

pdf abs
Voix de femmes, voix d’hommes: une étude du voice onset time, de la répartition consonnes/voyelles et du débit de parole chez des locuteurs francophones et anglophones américains (Female and male speech: a study of VOT, C/V temporal distribution and speech rate in Parisian French and American English speakers)
Erwan Pépiot

________________________________________________ La présente étude est une analyse acoustique de mots et pseudo-mots de type /CVCV/ produits par des locuteurs anglophones du nord-est des États-Unis (5 femmes, 5 hommes) et des francophones parisiens (5 femmes, 5 hommes). Le VOT des consonnes occlusives initiales, la durée des énoncés, ainsi que la répartition temporelle consonnes/voyelles ont été mesurés. Des différences inter-genres significatives ont été observées dans les deux langues sur chacun des paramètres testés : le contraste de VOT entre les occlusives sourdes et voisées s’est révélé plus important chez les locutrices, le débit de parole plus élevé chez les locuteurs masculins, et la proportion occupée par les consonnes plus importantes chez les femmes. Ces résultats suggèrent une tendance à la recherche d’une plus grande intelligibilité chez les locutrices. Les différences acoustiques femmes-hommes seraient donc en partie construites socialement.

pdf abs
Voyelles moyennes en français calédonien : propriétés phonétiques acoustiques (Mid vowels in New Caledonian French: Acoustic phonetic properties)
Eleanor Lewis

Cette étude examine la réalisation des voyelles moyennes /e, ɛ, ø, œ, o, ɔ/ par dix locuteurs du français calédonien. Les propriétés formantiques de ces voyelles sont analysées en ce qui concerne le genre de syllabe dans lesquelles elles se produisent. La durée des voyelles mi-fermées et miouvertes produites en paires minimales est statistiquement comparée. Les résultats indiquent que les locuteurs de cette variété ont tendance à respecter catégoriquement la loi de position, tel que les variantes mi-fermées se présentent dans les syllabes ouvertes et les variantes mi-ouvertes se présentent dans les syllabes fermées. Il existe pourtant une certaine variation individuelle concernant le niveau de conformité à cette loi. Cette étude met également en avant des indices de l’antériorisation du /ɔ/ (et du /o/ en syllabe fermée), une caractéristique qui a été documentée dans d’autres variétés du français.