Julien Pinquier

2024

En cancérologie ORL, le lien entre anatomie et déficit de parole est étroit en raison de l’impact de la pathologie et de son traitement sur les structures anatomiques en jeu dans la production de parole. Pourtant, les corrélations entre scores moteurs et évaluation perceptive restent faibles. L’utilisation de systèmes automatiques dédiés à la reconnaissance de phonèmes pourrait permettre d’obtenir de nouveaux résultats. L’objectif est d’étudier les liens entre scores moteurs et production phonémique via un système de reconnaissance automatique de phonèmes appliqué à une tâche de production de pseudo-mots. Après réalisation d’un inventaire phonémique par sujet, le taux d’occlusives reconnues est significativement plus faible en cas d’atteinte des structures. Certains mécanismes de compensation ont également pu être mis en évidence, notamment au niveau de la production de consonnes labiodentales, plus élevée en cas d’atteinte de la langue ou de la mâchoire.

pdf abs
Les représentations de locuteurs pour prédire l’intelligibilité de la parole lors de conversations médicales
Sebastiao Quintas | Mathieu Balaguer | Julie Mauclair | Virginie Woisard | Julien Pinquier
Actes des 35èmes Journées d'Études sur la Parole

Dans le contexte des troubles de la parole, l’une des tâches du thérapeute est de définir l’intelligibilité de la parole du patient. Les systèmes automatiques peuvent aider dans cette tâche, mais dans la plupart des cas, ils sont entraînés dans des environnements spécifiques et contrôlés, avec des conditions propres qui ne reflètent pas un environnement médical. Dans cet article, nous développons un système automatique qui prédit l’intelligibilité de la parole à partir de données provennant de patients ayant un cancer de la tête et du cou obtenues dans des conditions cliniques. Ce système repose sur des représentations de locuteurs entraînées selon une méthodologie multi-tâches pour prédire simultanément l’intelligibilité de la parole et la sévérité des troubles de la parole. Il atteint une corrélation allant jusqu’à 0,891 pour une tâche de lecture. De plus, il affiche des résultats prometteurs sur de la parole spontanée, qui est une tâche plus écologique mais sous-étudiée et pourtant essentielle pour un déploiement direct d’un système automatique dans un environnement hospitalier.

pdf abs
Erreurs de prononciation en L2 : comparaison de méthodes pour la détection et le diagnostic guidés par la didactique
Romain Contrain | Julien Pinquier | Lionel Fontan | Isabelle Ferrané
Actes des 35èmes Journées d'Études sur la Parole

La détection et diagnostic d’erreurs de prononciation nécessite des systèmes adaptés aux spécificités de la parole non-native. Élaborer de tels systèmes reste difficile à cause de la rareté des corpus dédiés incluant des annotations expertes. Dans cet article, nous proposons et comparons deux approches, l’une basée sur une transcription phonétique et l’autre sur l’alignement de signaux audio, élaborées dans le but de servir dans un programme d’entraînement à la prononciation assisté par ordinateur (EPAO). Nous les évaluons sur un corpus de parole non-native annoté selon des considérations didactiques, et nous trouvons que l’approche basée sur l’alignement a des propriétés préférables pour l’EPAO, dépassant la précision de l’autre approche de 31,1 et 3,8 en absolu sur deux erreurs communes des apprenants japonais du français.

pdf abs
Peut-on évaluer la compréhensibilité de la parole sans référence quant aux intentions de communication du locuteur ? Une étude auprès d’apprenants germanophones de FLE
Verdiana De Fino | Isabelle Ferrané | Julien Pinquier | Lionel Fontan
Actes des 35èmes Journées d'Études sur la Parole

En didactique des langues étrangères, la compréhensibilité des énoncés produits par les apprenants est le plus souvent évaluée de manière subjective, à l’aide d’échelles qualitatives. Très souvent, ces évaluations sont menées sans que l’évaluateur ne soit informé du contenu sémantique du message que souhaitait transmettre l’apprenant. L’évaluateur peut donc ignorer des divergences entre ce dernier et sa propre interprétation de l’énoncé – avec pour conséquence une surestimation de la compréhensibilité. Dans cette étude, nous vérifions l’existence d’un tel biais en demandant à 80 francophones natifs d’évaluer la compréhensibilité d’énoncés produits par neuf apprenants germanophones de français lors d’une tâche de traduction. L’évaluation est conduite sans référence (condition « a priori »), et en prenant connaissance d’une traduction de référence (condition « a posteriori »). Les résultats démontrent que les scores de compréhensibilité sont significativement plus élevés dans la condition a priori que dans la condition a posteriori, avec une taille d’effet importante.

pdf bib
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Mathieu Balaguer | Nihed Bendahman | Lydia-Mai Ho-dac | Julie Mauclair | Jose G Moreno | Julien Pinquier
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

pdf bib
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès
Mathieu Balaguer | Nihed Bendahman | Lydia-Mai Ho-dac | Julie Mauclair | Jose G Moreno | Julien Pinquier
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès

pdf bib
Actes de la 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues
Mathieu Balaguer | Nihed Bendahman | Lydia-Mai Ho-dac | Julie Mauclair | Jose G Moreno | Julien Pinquier
Actes de la 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues

2020

pdf abs
Une nouvelle mesure de la réverbération pour prédire les performances a priori de la transcription de la parole (A new reverberation measure to predict a priori ASR performance)
Sébastien Ferreira | Jérôme Farinas | Julien Pinquier | Julie Mauclair | Stéphane Rabant
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Dans cette étude, nous explorons la prédiction a priori de la qualité de la transcription automatique de la parole dans le cas de la parole réverbérée enregistrée avec un seul microphone. Cette prédiction est faite avant le décodage pour informer les utilisateurs de la qualité de la transcription attendue. Dans cette étude, nous nous concentrons uniquement sur les pertes de performance liées à la réverbération. Une nouvelle mesure de réverbération appelée « Excitation Behavior » est introduite. Cette mesure exploite le résidus de la prédiction linéaire sur les fenêtres voisées du signal de parole. L’expérience a été menée sur le corpus Wall Street Journal, réverbéré par des réponses impulsionnelles provenant du REVERB Challenge. Par rapport aux autres mesures de réverbération testées, notre mesure obtient une amélioration relative de 20% de la prédiction du taux d’erreur (aussi bien au niveau des phonèmes que des mots).

pdf abs
Analyse de l’effet de la réverbération sur la reconnaissance automatique de la parole (Analyzing how reverberation affects Automatic Speech Recognition)
Sébastien Ferreira | Jérôme Farinas | Julien Pinquier | Julie Mauclair | Stéphane Rabant
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

La Reconnaissance Automatique de la Parole (RAP) est moins performante lorsque le signal de parole est de mauvaise qualité. Dans cette étude, nous analysons les erreurs commises par les systèmes de RAP lorsque la parole transcrite est réverbérée afin de mieux comprendre les raisons de ces erreurs. Notre analyse permet de mettre en valeur les erreurs dues notamment à un mauvais alignement phonétique. Nous avons pu constater que les phonèmes de courte durée sont majoritairement supprimés lors du décodage phonétique. De plus, les phonèmes détectés, qu’ils soient corrects ou pas, ont tendance à avoir la même durée, ce qui est anormal pour certaines classes phonétiques comme les voyelles courtes ou les plosives. Nous avons aussi analysé les principales confusions entre les différentes classes phonétiques. Finalement, nous avons pu montrer que les erreurs lors de l’alignement phonétique des systèmes de transcription automatique entraînent beaucoup d’erreurs de détection.

pdf abs
Reconnaissance de phones fondée sur du Transfer Learning pour des enfants apprenants lecteurs en environnement de classe (Transfer Learning based phone recognition on children learning to read, with speech recorded in a classroom environment)
Lucile Gelin | Morgane Daniel | Thomas Pellegrini | Julien Pinquier
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

A conditions égales, les performances actuelles de la reconnaissance vocale pour enfants sont inférieures à celles des systèmes pour adultes. La parole des jeunes enfants est particulièrement difficile à reconnaître, et les données disponibles sont rares. En outre, pour notre application d’assistant de lecture pour les enfants de 5-7 ans, les modèles doivent s’adapter à une lecture lente, des disfluences et du bruit de brouhaha typique d’une classe. Nous comparons ici plusieurs modèles acoustiques pour la reconnaissance de phones sur de la parole lue d’enfant avec des données bruitées et en quantité limitée. Nous montrons que faire du Transfer Learning avec des modèles entraînés sur la parole d’adulte et trois heures de parole d’enfant améliore le taux d’erreur au niveau du phone (PER) de 7,6% relatifs, par rapport à un modèle enfant. La normalisation de la longueur du conduit vocal sur la parole d’adulte réduit ce taux d’erreur de 5,1% relatifs supplémentaires, atteignant un PER de 37,1%.

pdf abs
Étude des facteurs affectant la compréhensibilité de documents multimodaux : une étude expérimentale (Factors affecting the comprehensibility of multimodal documents : an experimental study )
Estelle Randria | Lionel Fontan | Maxime Le Coz | Isabelle Ferrané | Julien Pinquier
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

La compréhensibilité de documents audiovisuels peut dépendre de facteurs propres à l’auditeur/spectateur (ex. langue maternelle, performances cognitives) et de facteurs propres aux contenus des documents (ex. complexité linguistique, intelligibilité de la parole). Dans ces travaux, nous étudions les effets de facteurs propres aux contenus sur la compréhensibilité de 55 dialogues extraits de films, présentés à 15 experts (enseignants de français langue étrangère) selon cinq modalités différentes (transcription, transcription + audio, audio, audio + vidéo, transcription + audio + vidéo). Les experts ont évalué les dialogues en termes de compréhensibilité générale, de complexité du vocabulaire, de complexité grammaticale, et d’intelligibilité de la parole. L’analyse de leurs évaluations montre que (1) la complexité du vocabulaire, la complexité grammaticale, et l’intelligibilité de la parole sont significativement corrélées à la compréhensibilité générale, et (2) que les évaluations de compréhensibilité générale ont tendance à être plus élevées lors de présentations multimodales.

pdf abs
Subjective Evaluation of Comprehensibility in Movie Interactions
Estelle Randria | Lionel Fontan | Maxime Le Coz | Isabelle Ferrané | Julien Pinquier
Proceedings of the Twelfth Language Resources and Evaluation Conference

Various research works have dealt with the comprehensibility of textual, audio, or audiovisual documents, and showed that factors related to text (e.g. linguistic complexity), sound (e.g. speech intelligibility), image (e.g. presence of visual context), or even to cognition and emotion can play a major role in the ability of humans to understand the semantic and pragmatic contents of a given document. However, to date, no reference human data is available that could help investigating the role of the linguistic and extralinguistic information present at these different levels (i.e., linguistic, audio/phonetic, and visual) in multimodal documents (e.g., movies). The present work aimed at building a corpus of human annotations that would help to study further how much and in which way the human perception of comprehensibility (i.e., of the difficulty of comprehension, referred in this paper as overall difficulty) of audiovisual documents is affected (1) by lexical complexity, grammatical complexity, and speech intelligibility, and (2) by the modality/ies (text, audio, video) available to the human recipient.

2019

This paper presents the first results of a multidisciplinary project, the “Evolex” project, gathering researchers in Psycholinguistics, Neuropsychology, Computer Science, Natural Language Processing and Linguistics. The Evolex project aims at proposing a new data-based inductive method for automatically characterising the relation between pairs of french words collected in psycholinguistics experiments on lexical access. This method takes advantage of several complementary computational measures of semantic similarity. We show that some measures are more correlated than others with the frequency of lexical associations, and that they also differ in the way they capture different semantic relations. This allows us to consider building a multidimensional lexical similarity to automate the classification of lexical associations.

2018

2016

pdf abs
Influence de la quantité de données sur une tâche de segmentation de phones fondée sur les réseaux de neurones (Phone-level speech segmentation with neural networks : influence of the amount of data )
Céline Manenti | Thomas Pellegrini | Julien Pinquier
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

Dans cet article, nous décrivons une étude expérimentale de segmentation de parole en unités acoustiques sous-lexicales (phones) à l’aide de réseaux de neurones. Sur le corpus de parole spontanée d’anglais américain BUCKEYE, une F-mesure de 68% a été obtenue à l’aide d’un réseau convolutif, en considérant une marge d’erreur de 10 ms. Cette performance est supérieure à celle d’un annotateur manuel, l’accord inter-annotateurs étant de 62%. Restreindre les données d’apprentissage à celles d’un unique locuteur, 30 minutes environ, a eu pour conséquence moins de 10% de perte et utiliser celles de 5 locuteurs a permis d’atteindre des résultats similaires à utiliser plus de données. Utiliser le modèle entraîné avec le corpus anglais sur un petit corpus d’une langue peu dotée a donné des résultats comparables à estimer un modèle avec des données de cette langue.

2014

pdf
Comparaison de mesures perceptives et automatiques de l’intelligibilité - Application à de la parole simulant la presbyacousie [Comparing perceptive and automatic measures of speech intelligibility: the case of stimuli simulating the effects of presbycusis]
Lionel Fontan | Cynthia Magnen | Julien Tardieu | Isabelle Ferrané | Julien Pinquier | Jérôme Farinas | Pascal Gaillard | Xavier Aumont
Traitement Automatique des Langues, Volume 55, Numéro 2 : Traitement automatique du langage parlé [Spoken language processing]