This is an internal, incomplete preview of a proposed change to the ACL Anthology.
For efficiency reasons, we don't generate MODS or Endnote formats, and the preview may be incomplete in other ways, or contain mistakes.
Do not treat this content as an official publication.
LionelFontan
Fixing paper assignments
Please select all papers that belong to the same person.
Indicate below which author they should be assigned to.
La détection et diagnostic d’erreurs de prononciation nécessite des systèmes adaptés aux spécificités de la parole non-native. Élaborer de tels systèmes reste difficile à cause de la rareté des corpus dédiés incluant des annotations expertes. Dans cet article, nous proposons et comparons deux approches, l’une basée sur une transcription phonétique et l’autre sur l’alignement de signaux audio, élaborées dans le but de servir dans un programme d’entraînement à la prononciation assisté par ordinateur (EPAO). Nous les évaluons sur un corpus de parole non-native annoté selon des considérations didactiques, et nous trouvons que l’approche basée sur l’alignement a des propriétés préférables pour l’EPAO, dépassant la précision de l’autre approche de 31,1 et 3,8 en absolu sur deux erreurs communes des apprenants japonais du français.
En didactique des langues étrangères, la compréhensibilité des énoncés produits par les apprenants est le plus souvent évaluée de manière subjective, à l’aide d’échelles qualitatives. Très souvent, ces évaluations sont menées sans que l’évaluateur ne soit informé du contenu sémantique du message que souhaitait transmettre l’apprenant. L’évaluateur peut donc ignorer des divergences entre ce dernier et sa propre interprétation de l’énoncé – avec pour conséquence une surestimation de la compréhensibilité. Dans cette étude, nous vérifions l’existence d’un tel biais en demandant à 80 francophones natifs d’évaluer la compréhensibilité d’énoncés produits par neuf apprenants germanophones de français lors d’une tâche de traduction. L’évaluation est conduite sans référence (condition « a priori »), et en prenant connaissance d’une traduction de référence (condition « a posteriori »). Les résultats démontrent que les scores de compréhensibilité sont significativement plus élevés dans la condition a priori que dans la condition a posteriori, avec une taille d’effet importante.
La compréhensibilité de documents audiovisuels peut dépendre de facteurs propres à l’auditeur/spectateur (ex. langue maternelle, performances cognitives) et de facteurs propres aux contenus des documents (ex. complexité linguistique, intelligibilité de la parole). Dans ces travaux, nous étudions les effets de facteurs propres aux contenus sur la compréhensibilité de 55 dialogues extraits de films, présentés à 15 experts (enseignants de français langue étrangère) selon cinq modalités différentes (transcription, transcription + audio, audio, audio + vidéo, transcription + audio + vidéo). Les experts ont évalué les dialogues en termes de compréhensibilité générale, de complexité du vocabulaire, de complexité grammaticale, et d’intelligibilité de la parole. L’analyse de leurs évaluations montre que (1) la complexité du vocabulaire, la complexité grammaticale, et l’intelligibilité de la parole sont significativement corrélées à la compréhensibilité générale, et (2) que les évaluations de compréhensibilité générale ont tendance à être plus élevées lors de présentations multimodales.
Various research works have dealt with the comprehensibility of textual, audio, or audiovisual documents, and showed that factors related to text (e.g. linguistic complexity), sound (e.g. speech intelligibility), image (e.g. presence of visual context), or even to cognition and emotion can play a major role in the ability of humans to understand the semantic and pragmatic contents of a given document. However, to date, no reference human data is available that could help investigating the role of the linguistic and extralinguistic information present at these different levels (i.e., linguistic, audio/phonetic, and visual) in multimodal documents (e.g., movies). The present work aimed at building a corpus of human annotations that would help to study further how much and in which way the human perception of comprehensibility (i.e., of the difficulty of comprehension, referred in this paper as overall difficulty) of audiovisual documents is affected (1) by lexical complexity, grammatical complexity, and speech intelligibility, and (2) by the modality/ies (text, audio, video) available to the human recipient.
Nous présentons une méthode permettant d’évaluer la compréhension de la parole dégradée par simulation des effets de la presbyacousie, dans le calme et dans le bruit. Cette méthode intègre des phrases signifiantes et implique pour l’auditeur de sélectionner, parmi un ensemble de quatre images, celle qui correspond à l’énoncé qu’il entend. Le test présente de nombreux avantages méthodologiques comme l’immédiateté du score et le fait qu’il ne nécessite pas de faire répéter la phrase entendue. Les résultats obtenus montrent un effet significatif de la dégradation et du bruit du fond. La cohérence de ces effets avec les études précédentes sur la presbyacousie permet de valider cette méthode. Par ailleurs, la nature exacte du score mesuré dans ce test est discutée en le comparant avec le score d’intelligibilité obtenu par répétition d’items dans une précédente étude.
Dans cet article, nous comparons deux approches d’évaluation automatique de la prononciation de locuteurs japonophones apprenant le français. La première, l’algorithme standard appelé Goodness Of Pronunciation (GOP), compare les vraisemblances obtenues lors d’un alignement forcé et lors d’une reconnaissance de phones sans contrainte. La deuxième, nécessitant également un alignement préalable, fait appel à un réseau de neurones convolutif (CNN) comme classifieur binaire, avec comme entrée des trames de coefficients spectraux. Les deux approches sont évaluées sur deux phonèmes cibles /R/ et /v/ du français, particulièrement difficiles à prononcer pour des Japonophones. Les paramètres du GOP (seuils) et du CNN sont estimés sur un corpus de parole lue par des locuteurs natifs du français, dans lequel des erreurs de prononciation artificielles sont introduites. Un gain de performance relatif de 13,4% a été obtenu avec le CNN, avec une précision globale de 72,6%, sur un corpus d’évaluation enregistré par 23 locuteurs japonophones.