2024
pdf
abs
Jargon: A Suite of Language Models and Evaluation Tasks for French Specialized Domains
Vincent Segonne
|
Aidan Mannion
|
Laura Cristina Alonzo Canul
|
Alexandre Daniel Audibert
|
Xingyu Liu
|
Cécile Macaire
|
Adrien Pupier
|
Yongxin Zhou
|
Mathilde Aguiar
|
Felix E. Herron
|
Magali Norré
|
Massih R Amini
|
Pierrette Bouillon
|
Iris Eshkol-Taravella
|
Emmanuelle Esperança-Rodier
|
Thomas François
|
Lorraine Goeuriot
|
Jérôme Goulian
|
Mathieu Lafourcade
|
Benjamin Lecouteux
|
François Portet
|
Fabien Ringeval
|
Vincent Vandeghinste
|
Maximin Coavoux
|
Marco Dinarelli
|
Didier Schwab
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
Pretrained Language Models (PLMs) are the de facto backbone of most state-of-the-art NLP systems. In this paper, we introduce a family of domain-specific pretrained PLMs for French, focusing on three important domains: transcribed speech, medicine, and law. We use a transformer architecture based on efficient methods (LinFormer) to maximise their utility, since these domains often involve processing long documents. We evaluate and compare our models to state-of-the-art models on a diverse set of tasks and datasets, some of which are introduced in this paper. We gather the datasets into a new French-language evaluation benchmark for these three domains. We also compare various training configurations: continued pretraining, pretraining from scratch, as well as single- and multi-domain pretraining. Extensive domain-specific experiments show that it is possible to attain competitive downstream performance even when pre-training with the approximative LinFormer attention mechanism. For full reproducibility, we release the models and pretraining data, as well as contributed datasets.
pdf
abs
Limitations of Human Identification of Automatically Generated Text
Nadège Alavoine
|
Maximin Coavoux
|
Emmanuelle Esperança-Rodier
|
Romane Gallienne
|
Carlos-Emiliano González-Gallardo
|
Jérôme Goulian
|
Jose G. Moreno
|
Aurélie Névéol
|
Didier Schwab
|
Vincent Segonne
|
Johanna Simoens
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
Neural text generation is receiving broad attention with the publication of new tools such as ChatGPT. The main reason for that is that the achieved quality of the generated text may be attributed to a human writer by the naked eye of a human evaluator. In this paper, we propose a new corpus in French and English for the task of recognising automatically generated texts and we conduct a study of how humans perceive the text. Our results show, as previous work before the ChatGPT era, that the generated texts by tools such as ChatGPT share some common characteristics but they are not clearly identifiable which generates different perceptions of these texts.
pdf
abs
Growing Trees on Sounds: Assessing Strategies for End-to-End Dependency Parsing of Speech
Adrien Pupier
|
Maximin Coavoux
|
Jérôme Goulian
|
Benjamin Lecouteux
Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)
Direct dependency parsing of the speech signal –as opposed to parsing speech transcriptions– has recently been proposed as a task (Pupier et al. 2022), as a way of incorporating prosodic information in the parsing system and bypassing the limitations of a pipeline approach that would consist of using first an Automatic Speech Recognition (ASR) system and then a syntactic parser. In this article, we report on a set of experiments aiming at assessing the performance of two parsing paradigms (graph-based parsing and sequence labeling based parsing) on speech parsing. We perform this evaluation on a large treebank of spoken French, featuring realistic spontaneous conversations. Our findings show that (i) the graph based approach obtain better results across the board (ii) parsing directly from speech outperforms a pipeline approach, despite having 30% fewer parameters.
pdf
abs
Une approche par graphe pour l’analyse syntaxique en dépendances de bout en bout de la parole
Adrien Pupier
|
Maximin Coavoux
|
Benjamin Lecouteux
|
Jérôme Goulian
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Effectuer l’analyse syntaxique du signal audio –plutôt que de passer par des transcriptions de l’audio– est une tache récemment proposée par Pupier et al. (2022), dans le but d’incorporer de l’information prosodique dans le modèle d’analyse syntaxique et de passer outre les limitations d’une approche cascade qui consisterait à utiliser un système de reconnaissance de la parole (RAP) puis un analyseur syntaxique. Dans cet article, nous effectuons un ensemble d’expériences visant à comparer les performances de deux familles d’analyseurs syntaxiques (i) l’approche par graphe (ii) la réduction à une tâche d’étiquetage de séquence ; directement sur la parole. Nous évaluons notre approche sur un corpus arboré du Français parlé. Nous montrons que (i) l’approche par graphe obtient de meilleurs résultats globalement (ii) effectuer l’analyse syntaxique directement depuis la parole obtient de meilleurs résultats qu’une approche par cascade de systèmes, malgré 30 de paramètre en moins
pdf
abs
Jargon : Une suite de modèles de langues et de référentiels d’évaluation pour les domaines spécialisés du français
Vincent Segonne
|
Aidan Mannion
|
Laura Alonzo-Canul
|
Audibert Alexandre
|
Xingyu Liu
|
Cécile Macaire
|
Adrien Pupier
|
Yongxin Zhou
|
Mathilde Aguiar
|
Felix Herron
|
Magali Norré
|
Massih-Reza Amini
|
Pierrette Bouillon
|
Iris Eshkol Taravella
|
Emmanuelle Esparança-Rodier
|
Thomas François
|
Lorraine Goeuriot
|
Jérôme Goulian
|
Mathieu Lafourcade
|
Benjamin Lecouteux
|
François Portet
|
Fabien Ringeval
|
Vincent Vandeghinste
|
Maximin Coavoux
|
Marco Dinarelli
|
Didier Schwab
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès
Les modèles de langue préentraînés (PLM) constituent aujourd’hui de facto l’épine dorsale de la plupart des systèmes de traitement automatique des langues. Dans cet article, nous présentons Jargon, une famille de PLMs pour des domaines spécialisés du français, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biomédical, et le domaine juridique. Nous utilisons une architecture de transformeur basée sur des méthodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous évaluons et comparons nos modèles à des modèles de l’état de l’art sur un ensemble varié de tâches et de corpus d’évaluation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de données dans un nouveau référentiel d’évaluation en langue française pour ces trois domaines. Nous comparons également diverses configurations d’entraînement : préentraînement prolongé en apprentissage autosupervisé sur les données spécialisées, préentraînement à partir de zéro, ainsi que préentraînement mono et multi-domaines. Nos expérimentations approfondies dans des domaines spécialisés montrent qu’il est possible d’atteindre des performances compétitives en aval, même lors d’un préentraînement avec le mécanisme d’attention approximatif de LinFormer. Pour une reproductibilité totale, nous publions les modèles et les données de préentraînement, ainsi que les corpus utilisés.
pdf
abs
Sur les limites de l’identification par l’humain de textes générés automatiquement
Nadége Alavoine
|
Maximin Coavoux
|
Emmanuelle Esperança-Rodier
|
Romane Gallienne
|
Carlos-Emiliano González-Gallardo
|
Jérôme Goulian
|
Jose G Moreno
|
Aurélie Névéol
|
Didier Schwab
|
Vincent Segonne
|
Johanna Simoens
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès
La génération de textes neuronaux fait l’objet d’une grande attention avec la publication de nouveaux outils tels que ChatGPT. La principale raison en est que la qualité du texte généré automatiquement peut être attribuée à un$cdot$e rédacteurice humain$cdot$e même quand l’évaluation est faite par un humain. Dans cet article, nous proposons un nouveau corpus en français et en anglais pour la tâche d’identification de textes générés automatiquement et nous menons une étude sur la façon dont les humains perçoivent ce texte. Nos résultats montrent, comme les travaux antérieurs à l’ère de ChatGPT, que les textes générés par des outils tels que ChatGPT partagent certaines caractéristiques communes mais qu’ils ne sont pas clairement identifiables, ce qui génère des perceptions différentes de ces textes par l’humain.
2023
pdf
abs
PROPICTO: Developing Speech-to-Pictograph Translation Systems to Enhance Communication Accessibility
Lucía Ormaechea
|
Pierrette Bouillon
|
Maximin Coavoux
|
Emmanuelle Esperança-Rodier
|
Johanna Gerlach
|
Jerôme Goulian
|
Benjamin Lecouteux
|
Cécile Macaire
|
Jonathan Mutal
|
Magali Norré
|
Adrien Pupier
|
Didier Schwab
Proceedings of the 24th Annual Conference of the European Association for Machine Translation
PROPICTO is a project funded by the French National Research Agency and the Swiss National Science Foundation, that aims at creating Speech-to-Pictograph translation systems, with a special focus on French as an input language. By developing such technologies, we intend to enhance communication access for non-French speaking patients and people with cognitive impairments.
2022
pdf
Performance of two French BERT models for French language on verbatim transcripts and online posts
Emmanuelle Kelodjoue
|
Jérôme Goulian
|
Didier Schwab
Proceedings of the 5th International Conference on Natural Language and Speech Processing (ICNLSP 2022)
2013
pdf
GETALP System : Propagation of a Lesk Measure through an Ant Colony Algorithm
Didier Schwab
|
Andon Tchechmedjiev
|
Jérôme Goulian
|
Mohammad Nasiruddin
|
Gilles Sérasset
|
Hervé Blanchon
Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013)
pdf
Désambiguïsation lexicale de textes : efficacité qualitative et temporelle d’un algorithme à colonies de fourmis [Lexical disambiguation of texts: qualitative and temporal efficiency of an ant colony algorithm]
Didier Schwab
|
Jérôme Goulian
|
Andon Tchechmedjiev
Traitement Automatique des Langues, Volume 54, Numéro 1 : Varia [Varia]
2012
pdf
Parameter estimation under uncertainty with Simulated Annealing applied to an ant colony based probabilistic WSD algorithm
Andon Tchechmedjiev
|
Jérôme Goulian
|
Didier Schwab
|
Gilles Sérasset
Proceedings of the First International Workshop on Optimization Techniques for Human Language Technology
pdf
Ant Colony Algorithm for the Unsupervised Word Sense Disambiguation of Texts: Comparison and Evaluation
Didier Schwab
|
Jérôme Goulian
|
Andon Tchechmedjiev
|
Hervé Blanchon
Proceedings of COLING 2012
pdf
ACOLAD Plateforme pour l’édition collaborative dépendancielle (ACOLAD: platform for collaborative dependency annotation) [in French]
Francis Brunet-Manquat
|
Jérôme Goulian
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN
2011
pdf
abs
Désambiguïsation lexicale par propagation de mesures sémantiques locales par algorithmes à colonies de fourmis (Lexical disambiguation by propagation of local semantic measures using ant colony algorithms)
Didier Schwab
|
Jérôme Goulian
|
Nathan Guillaume
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Effectuer une tâche de désambiguïsation lexicale peut permettre d’améliorer de nombreuses applications du traitement automatique des langues comme l’extraction d’informations multilingues, ou la traduction automatique. Schématiquement, il s’agit de choisir quel est le sens le plus approprié pour chaque mot d’un texte. Une des approches classiques consiste à estimer la proximité sémantique qui existe entre deux sens de mots puis de l’étendre à l’ensemble du texte. La méthode la plus directe donne un score à toutes les paires de sens de mots puis choisit la chaîne de sens qui a le meilleur score. La complexité de cet algorithme est exponentielle et le contexte qu’il est calculatoirement possible d’utiliser s’en trouve réduit. Il ne s’agit donc pas d’une solution viable. Dans cet article, nous nous intéressons à une autre méthode, l’adaptation d’un algorithme à colonies de fourmis. Nous présentons ses caractéristiques et montrons qu’il permet de propager à un niveau global les résultats des algorithmes locaux et de tenir compte d’un contexte plus long et plus approprié en un temps raisonnable.
2009
pdf
bib
abs
ACOLAD un environnement pour l’édition de corpus de dépendances
Francis Brunet-Manquat
|
Jérôme Goulian
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Dans cette démonstration, nous présentons le prototype d’un environnement open-source pour l’édition de corpus de dépendances. Cet environnement, nommé ACOLAD (Annotation de COrpus Linguistique pour l’Analyse de dépendances), propose des services manuels de segmentation et d’annotation multi-niveaux (segmentation en mots et en syntagmes minimaux (chunks), annotation morphosyntaxique des mots, annotation syntaxique des chunks et annotation syntaxique des dépendances entre mots ou entre chunks).
pdf
abs
CIFLI-SurviTra, deux facettes : démonstrateur de composants de TA fondée sur UNL, et phrasebook multilingue
Georges Fafiotte
|
Achille Falaise
|
Jérôme Goulian
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
CIFLI-SurviTra (“Survival Translation” assistant) est une plate-forme destinée à favoriser l’ingénierie et la mise au point de composants UNL de TA, à partir d’une mémoire de traduction formée de livres de phrases multilingues avec variables lexicales. SurviTra est aussi un phrasebook digital multilingue, assistant linguistique pour voyageurs monolingues (français, hindi, tamoul, anglais) en situation de “survie linguistique”. Le corpus d’un domaine-pilote (“Restaurant”) a été structuré et construit : sous-domaines de phrases alignées et classes lexicales de locutions quadrilingues, graphes UNL, dictionnaires UW++/français et UW++/hindi par domaines. L’approche, générique, est applicable à d’autres langues. Le prototype d’assistant linguistique (application Web, à interface textuelle) peut évoluer vers une application UNL embarquée sur SmartPhone, avec Traitement de Parole et multimodalité.
2004
pdf
abs
The French MEDIA/EVALDA Project: the Evaluation of the Understanding Capability of Spoken Language Dialogue Systems
Laurence Devillers
|
Hélène Maynard
|
Sophie Rosset
|
Patrick Paroubek
|
Kevin McTait
|
D. Mostefa
|
Khalid Choukri
|
Laurent Charnay
|
Caroline Bousquet
|
Nadine Vigouroux
|
Frédéric Béchet
|
Laurent Romary
|
Jean-Yves Antoine
|
J. Villaneau
|
Myriam Vergnes
|
J. Goulian
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)
The aim of the MEDIA project is to design and test a methodology for the evaluat ion of context-dependent and independent spoken dialogue systems. We propose an evaluation paradigm based on the use of test suites from real-world corpora and a common semantic representation and common metrics. This paradigm should allow us to diagnose the context-sensitive understanding capability of dialogue system s. This paradigm will be used within an evaluation campaign involving several si tes all of which will carry out the task of querying information from a database .
2003
pdf
bib
abs
Quand le TAL robuste s’attaque au langage parlé : analyse incrémentale pour la compréhension de la parole spontanée
Jean-Yves Antoine
|
Jérôme Goulian
|
Jeanne Villaneau
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous discutons de l’application au langage parlé des techniques d’analyse syntaxique robuste développées pour l’écrit. Nous présentons deux systèmes de compréhension de parole spontané en situation de dialogue homme-machine finalisé, dont les performances montrent la pertinence de ces méthodes pour atteindre une compréhension fine et robuste des énoncés oraux.
2002
pdf
abs
Compréhension Automatique de la Parole et TAL : une approche syntaxico-sémantique pour le traitement des inattendus structuraux du français parlé
Jérôme Goulian
|
Jean-Yves Antoine
|
Franck Poirier
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Dans cet article, nous présentons un système de Compréhension Automatique de la Parole dont l’un des objectifs est de permettre un traitement fiable et robuste des inattendus structuraux du français parlé (hésitations, répétitions et corrections). L’analyse d’un énoncé s’effectue en deux étapes : une première étape générique d’analyse syntaxique de surface suivie d’une seconde étape d’analyse sémantico-pragmatique, dépendante du domaine d’application et reposant sur un formalisme lexicalisé : les grammaires de liens. Les résultats de l’évaluation de ce système lors de la campagne d’évaluation du Groupe de Travail Compréhension Robuste du GDR I3 du CNRS nous permettent de discuter de l’intérêt et des limitations de l’approche adoptée.
pdf
Predictive and objective evaluation of speech understanding: the “challenge” evaluation campaign of the I3 speech workgroup of the French CNRS
Jean-Yves Antoine
|
Caroline Bousquet-Vernhettes
|
Jérôme Goulian
|
Mohamed Zakaria Kurdi
|
Sophie Rosset
|
Nadine Vigouroux
|
Jeanne Villaneau
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)
2001
pdf
abs
Compréhension Automatique de la Parole combinant syntaxe locale et sémantique globale pour une CHM portant sur des tâches relativement complexes
Jérôme Goulian
|
Jean-Yves Antoine
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons dans cet article un système de Compréhension Automatique de la Parole (CAP) tentant de concilier les contraintes antinomiques de robustesse et d’analyse détaillée de la parole spontanée. Dans une première partie, nous montrons l’importance de la mise en oeuvre d’une CAP fine dans l’optique d’une Communication Homme-Machine (CHM) sur des tâches moyennement complexes. Nous présentons ensuite l’architecture de notre système qui repose sur une analyse en deux étapes : une première étape d’analyse syntaxique de surface (Shallow Parsing) générique suivie d’une seconde étape d’analyse sémantico-pragmatique – dépendante du domaine d’application – de la structure profonde de l’ ́enoncé complet.
2000
pdf
Obtaining Predictive Results with an Objective Evaluation of Spoken Dialogue Systems: Experiments with the DCR Assessment Paradigm
Jean-Yves Antoine
|
Jacques Siroux
|
Jean Caelen
|
Jeanne Villaneau
|
Jérôme Goulian
|
Mohamed Ahafhaf
Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00)