This is an internal, incomplete preview of a proposed change to the ACL Anthology.
For efficiency reasons, we don't generate MODS or Endnote formats, and the preview may be incomplete in other ways, or contain mistakes.
Do not treat this content as an official publication.
LucileGelin
Fixing paper assignments
Please select all papers that belong to the same person.
Indicate below which author they should be assigned to.
Le projet CHICA-AI vise à construire une activité assistée par ordinateur pour l’entraînement des compétences de compréhension de la lecture des élèves de primaire. Cette activité consiste à demander à l’élève de résumer à l’oral un texte narratif, afin d’identifier ses difficultés de compréhension et fournir un retour personnalisé à l’élève et à son enseignant. Pour cela, nous mettrons en place un système automatique d’analyse fine des résumés oraux, capable d’extraire les informations pertinentes et de les combiner pour remplir une grille de critères pédagogiques et psycho-cognitifs. Nous présentons ici les défis du projet, ainsi que les premiers travaux réalisés : création de l’activité dans la plateforme Lalilo et du contenu pédagogique, collecte d’enregistrements audios, construction du protocole d’annotation. Nous présentons enfin les analyses préliminaires faites sur les premières annotations, qui serviront à l’entraînement et l’évaluation de notre système automatique.
En cancérologie ORL, le lien entre anatomie et déficit de parole est étroit en raison de l’impact de la pathologie et de son traitement sur les structures anatomiques en jeu dans la production de parole. Pourtant, les corrélations entre scores moteurs et évaluation perceptive restent faibles. L’utilisation de systèmes automatiques dédiés à la reconnaissance de phonèmes pourrait permettre d’obtenir de nouveaux résultats. L’objectif est d’étudier les liens entre scores moteurs et production phonémique via un système de reconnaissance automatique de phonèmes appliqué à une tâche de production de pseudo-mots. Après réalisation d’un inventaire phonémique par sujet, le taux d’occlusives reconnues est significativement plus faible en cas d’atteinte des structures. Certains mécanismes de compensation ont également pu être mis en évidence, notamment au niveau de la production de consonnes labiodentales, plus élevée en cas d’atteinte de la langue ou de la mâchoire.
La reconnaissance de parole d’enfant est un domaine de recherche encore peu développé en raison du manque de données et des difficultés caractéristiques de cette tâche. Après avoir exploré diverses architectures pour la RAP d’enfant dans de précédents travaux, nous nous attaquons dans cet article aux nouveaux modèles auto-supervisés. Nous comparons d’abord plusieurs modèles Wav2vec2, HuBERT et WavLM adaptés superficiellement à la reconnaissance de phonèmes sur parole d’enfant, et poursuivons nos expériences avec le meilleur d’entre eux, un WavLM base+. Il est ensuite adapté plus profondément en dégelant ses blocs transformer lors de l’entraînement sur parole d’enfant, ce qui améliore grandement ses performances et le fait surpasser significativement notre modèle de base, un Transformer+CTC. Enfin, nous étudions en détail les comportements de ces deux modèles en conditions réelles de notre application, et montrons que WavLM base+ est plus robuste à diverses tâches de lecture et niveaux de bruit.
A conditions égales, les performances actuelles de la reconnaissance vocale pour enfants sont inférieures à celles des systèmes pour adultes. La parole des jeunes enfants est particulièrement difficile à reconnaître, et les données disponibles sont rares. En outre, pour notre application d’assistant de lecture pour les enfants de 5-7 ans, les modèles doivent s’adapter à une lecture lente, des disfluences et du bruit de brouhaha typique d’une classe. Nous comparons ici plusieurs modèles acoustiques pour la reconnaissance de phones sur de la parole lue d’enfant avec des données bruitées et en quantité limitée. Nous montrons que faire du Transfer Learning avec des modèles entraînés sur la parole d’adulte et trois heures de parole d’enfant améliore le taux d’erreur au niveau du phone (PER) de 7,6% relatifs, par rapport à un modèle enfant. La normalisation de la longueur du conduit vocal sur la parole d’adulte réduit ce taux d’erreur de 5,1% relatifs supplémentaires, atteignant un PER de 37,1%.