2024
pdf
abs
Jargon: A Suite of Language Models and Evaluation Tasks for French Specialized Domains
Vincent Segonne
|
Aidan Mannion
|
Laura Cristina Alonzo Canul
|
Alexandre Daniel Audibert
|
Xingyu Liu
|
Cécile Macaire
|
Adrien Pupier
|
Yongxin Zhou
|
Mathilde Aguiar
|
Felix E. Herron
|
Magali Norré
|
Massih R Amini
|
Pierrette Bouillon
|
Iris Eshkol-Taravella
|
Emmanuelle Esperança-Rodier
|
Thomas François
|
Lorraine Goeuriot
|
Jérôme Goulian
|
Mathieu Lafourcade
|
Benjamin Lecouteux
|
François Portet
|
Fabien Ringeval
|
Vincent Vandeghinste
|
Maximin Coavoux
|
Marco Dinarelli
|
Didier Schwab
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
Pretrained Language Models (PLMs) are the de facto backbone of most state-of-the-art NLP systems. In this paper, we introduce a family of domain-specific pretrained PLMs for French, focusing on three important domains: transcribed speech, medicine, and law. We use a transformer architecture based on efficient methods (LinFormer) to maximise their utility, since these domains often involve processing long documents. We evaluate and compare our models to state-of-the-art models on a diverse set of tasks and datasets, some of which are introduced in this paper. We gather the datasets into a new French-language evaluation benchmark for these three domains. We also compare various training configurations: continued pretraining, pretraining from scratch, as well as single- and multi-domain pretraining. Extensive domain-specific experiments show that it is possible to attain competitive downstream performance even when pre-training with the approximative LinFormer attention mechanism. For full reproducibility, we release the models and pretraining data, as well as contributed datasets.
pdf
abs
What Has LeBenchmark Learnt about French Syntax?
Zdravko Dugonjić
|
Adrien Pupier
|
Benjamin Lecouteux
|
Maximin Coavoux
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
The paper reports on a series of experiments aiming at probing LeBenchmark, a pretrained acoustic model trained on 7k hours of spoken French, for syntactic information. Pretrained acoustic models are increasingly used for downstream speech tasks such as automatic speech recognition, speech translation, spoken language understanding or speech parsing. They are trained on very low level information (the raw speech signal), and do not have explicit lexical knowledge. Despite that, they obtained reasonable results on tasks that requires higher level linguistic knowledge. As a result, an emerging question is whether these models encode syntactic information. We probe each representation layer of LeBenchmark for syntax, using the Orféo treebank, and observe that it has learnt some syntactic information. Our results show that syntactic information is more easily extractable from the middle layers of the network, after which a very sharp decrease is observed.
pdf
abs
Une approche par graphe pour l’analyse syntaxique en dépendances de bout en bout de la parole
Adrien Pupier
|
Maximin Coavoux
|
Benjamin Lecouteux
|
Jérôme Goulian
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Effectuer l’analyse syntaxique du signal audio –plutôt que de passer par des transcriptions de l’audio– est une tache récemment proposée par Pupier et al. (2022), dans le but d’incorporer de l’information prosodique dans le modèle d’analyse syntaxique et de passer outre les limitations d’une approche cascade qui consisterait à utiliser un système de reconnaissance de la parole (RAP) puis un analyseur syntaxique. Dans cet article, nous effectuons un ensemble d’expériences visant à comparer les performances de deux familles d’analyseurs syntaxiques (i) l’approche par graphe (ii) la réduction à une tâche d’étiquetage de séquence ; directement sur la parole. Nous évaluons notre approche sur un corpus arboré du Français parlé. Nous montrons que (i) l’approche par graphe obtient de meilleurs résultats globalement (ii) effectuer l’analyse syntaxique directement depuis la parole obtient de meilleurs résultats qu’une approche par cascade de systèmes, malgré 30 de paramètre en moins
pdf
abs
Jargon : Une suite de modèles de langues et de référentiels d’évaluation pour les domaines spécialisés du français
Vincent Segonne
|
Aidan Mannion
|
Laura Alonzo-Canul
|
Audibert Alexandre
|
Xingyu Liu
|
Cécile Macaire
|
Adrien Pupier
|
Yongxin Zhou
|
Mathilde Aguiar
|
Felix Herron
|
Magali Norré
|
Massih-Reza Amini
|
Pierrette Bouillon
|
Iris Eshkol Taravella
|
Emmanuelle Esparança-Rodier
|
Thomas François
|
Lorraine Goeuriot
|
Jérôme Goulian
|
Mathieu Lafourcade
|
Benjamin Lecouteux
|
François Portet
|
Fabien Ringeval
|
Vincent Vandeghinste
|
Maximin Coavoux
|
Marco Dinarelli
|
Didier Schwab
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès
Les modèles de langue préentraînés (PLM) constituent aujourd’hui de facto l’épine dorsale de la plupart des systèmes de traitement automatique des langues. Dans cet article, nous présentons Jargon, une famille de PLMs pour des domaines spécialisés du français, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biomédical, et le domaine juridique. Nous utilisons une architecture de transformeur basée sur des méthodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous évaluons et comparons nos modèles à des modèles de l’état de l’art sur un ensemble varié de tâches et de corpus d’évaluation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de données dans un nouveau référentiel d’évaluation en langue française pour ces trois domaines. Nous comparons également diverses configurations d’entraînement : préentraînement prolongé en apprentissage autosupervisé sur les données spécialisées, préentraînement à partir de zéro, ainsi que préentraînement mono et multi-domaines. Nos expérimentations approfondies dans des domaines spécialisés montrent qu’il est possible d’atteindre des performances compétitives en aval, même lors d’un préentraînement avec le mécanisme d’attention approximatif de LinFormer. Pour une reproductibilité totale, nous publions les modèles et les données de préentraînement, ainsi que les corpus utilisés.
2023
pdf
abs
PROPICTO: Developing Speech-to-Pictograph Translation Systems to Enhance Communication Accessibility
Lucía Ormaechea
|
Pierrette Bouillon
|
Maximin Coavoux
|
Emmanuelle Esperança-Rodier
|
Johanna Gerlach
|
Jerôme Goulian
|
Benjamin Lecouteux
|
Cécile Macaire
|
Jonathan Mutal
|
Magali Norré
|
Adrien Pupier
|
Didier Schwab
Proceedings of the 24th Annual Conference of the European Association for Machine Translation
PROPICTO is a project funded by the French National Research Agency and the Swiss National Science Foundation, that aims at creating Speech-to-Pictograph translation systems, with a special focus on French as an input language. By developing such technologies, we intend to enhance communication access for non-French speaking patients and people with cognitive impairments.
2022
pdf
abs
Une chaîne de traitements pour la simplification automatique de la parole et sa traduction automatique vers des pictogrammes (Simplification and automatic translation of speech into pictograms )
Cécile Macaire
|
Lucia Ormaechea-Grijalba
|
Adrien Pupier
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 : 24e Rencontres Etudiants Chercheurs en Informatique pour le TAL (RECITAL)
La Communication Alternative et Augmentée (CAA) prend une place importante chez les personnes en situation de handicap ainsi que leurs proches à cause de la difficulté de son utilisation. Pour réduire ce poids, l’utilisation d’outils de traduction de la parole en pictogrammes est pertinente. De plus, ils peuvent être d’une grande aide pour l’accessibilité communicative dans le milieu hospitalier. Dans cet article, nous présentons un projet de recherche visant à développer un système de traduction de la parole vers des pictogrammes. Il met en jeu une chaîne de traitement comportant plusieurs axes relevant du traitement automatique des langues et de la parole, tels que la reconnaissance automatique de la parole, l’analyse syntaxique, la simplification de texte et la traduction automatique vers les pictogrammes. Nous présentons les difficultés liées à chacun de ces axes ainsi que, pour certains, les pistes de résolution.