This is an internal, incomplete preview of a proposed change to the ACL Anthology.
For efficiency reasons, we don't generate MODS or Endnote formats, and the preview may be incomplete in other ways, or contain mistakes.
Do not treat this content as an official publication.
AghilasSini
Fixing paper assignments
Please select all papers that belong to the same person.
Indicate below which author they should be assigned to.
Ce travail présente les systèmes développés par l’équipe LIUM-CREN pour l’atelier DEFT 2024. Nous avons participé à la tâche principale qui vise à inférer automatiquement les réponses correctes à des questions à choix multiples dans le domaine médical en utilisant le corpus FrenchMedMCQA. Nous avons soumis trois approches : (a) explorer l’espace de plongements afin de mettre en évidence les liens éventuels entre les questions et les réponses associées ; (b) utiliser la capacité de génération des modèles Text-To-Text tels que Flan-T5-Large pour générer les réponses correctes ; et (c) mettre en place une technique basique de Retrieval Augmented Generation (RAG) afin de fournir du contexte spécifique au modèle génératif Flan-T5-Large. Cet article vise à rapporter les résultats que nous avons obtenus et à étudier l’impact du contexte sur la capacité du Flan-T5 à inférer les réponses correctes.
Audiobook readers play with their voices to emphasize some text passages, highlight discourse changes or significant events, or in order to make listening easier and entertaining. A dialog is a central passage in audiobooks where the reader applies significant voice transformation, mainly prosodic modifications, to realize character properties and changes. However, these intra-speaker modifications are hard to reproduce with simple text-to-speech synthesis. The manner of vocalizing characters involved in a given story depends on the text style and differs from one speaker to another. In this work, this problem is investigated through the prism of voice conversion. We propose to explore modifying the narrator’s voice to fit the context of the story, such as the character who is speaking, using voice conversion. To this end, two complementary experiments are designed: the first one aims to assess the quality of our Phonetic PosteriorGrams (PPG)-based voice conversion system using parallel data. Subjective evaluations with naive raters are conducted to estimate the quality of the signal generated and the speaker similarity. The second experiment applies an intra-speaker voice conversion, considering narration passages and direct speech passages as two distinct speakers. Data are then nonparallel and the dissimilarity between character and narrator is subjectively measured.
Pour synthétiser automatiquement et de manière expressive des livres audio, il est nécessaire de connaître le type des discours à oraliser. Ceci étant, dans un roman ou une nouvelle, les perspectives narratives et les types de discours évoluent souvent entre de la narration, du récitatif, du discours direct, du discours rapporté, voire des dialogues. Dans ce travail, nous allons présenter un outil qui a été développé à partir de l’analyse d’un corpus de livres audio (extraits de Madame Bovary et des Mystères de Paris) et qui prend comme unité de base pour l’analyse le paragraphe. Cet outil permet donc non seulement de déterminer automatiquement les types de discours (narration, discours direct, dialogue), et donc de savoir qui parle, mais également d’annoter l’extension des modifications discursives. Ce dernier point est important, notamment dans le cas d’incises de citation où le narrateur reprend la parole dans une séquence au discours direct. Dans sa forme actuelle, l’outil atteint un taux de 89 % de bonne détection.