François Buet


2021

pdf bib
Vers la production automatique de sous-titres adaptés à l’affichage (Towards automatic adapted monolingual captioning)
François Buet | François Yvon
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Une façon de réaliser un sous-titrage automatique monolingue est d’associer un système de reconnaissance de parole avec un modèle de traduction de la transcription vers les sous-titres. La tâche de « traduction » est délicate dans la mesure où elle doit opérer une simplification et une compression du texte, respecter des normes liées à l’affichage, tout en composant avec les erreurs issues de la reconnaissance vocale. Une difficulté supplémentaire est la relative rareté des corpus mettant en parallèle transcription automatique et sous-titres sont relativement rares. Nous décrivons ici un nouveau corpus en cours de constitution et nous expérimentons l’utilisation de méthodes de contrôle plus ou moins direct de la longueur des phrases engendrées, afin d’améliorer leur qualité du point de vue linguistique et normatif.

2020

pdf bib
Analyse de la régulation de la longueur dans un système neuronal de compression de phrase : une étude du modèle LenInit (Investigating Length Regulation in a Sentence Compression Neural System : a Study on the LenInit Model)
François Buet
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL

La simplification de phrase vise à réduire la complexité d’une phrase tout en retenant son sens initial et sa grammaticalité. En pratique, il est souvent attendu que la phrase produite soit plus courte que la phrase d’origine, et les modèles qui intègrent un contrôle explicite de la longueur de sortie revêtent un intérêt particulier. Dans la continuité de la littérature dédiée à la compréhension du comportement des systèmes neuronaux, nous examinons dans cet article les mécanismes de régulation de longueur d’un encodeur-décodeur RNN appliqué à la compression de phrase, en étudiant spécifiquement le cas du modèle LenInit. Notre analyse met en évidence la coexistence de deux influences distinctes au cours du décodage : celle du contrôle explicite de la longueur, et celle du modèle de langue du décodeur.