Loïc Grobol


2022

pdf
BERTrade: Using Contextual Embeddings to Parse Old French
Loïc Grobol | Mathilde Regnault | Pedro Ortiz Suarez | Benoît Sagot | Laurent Romary | Benoit Crabbé
Proceedings of the Thirteenth Language Resources and Evaluation Conference

The successes of contextual word embeddings learned by training large-scale language models, while remarkable, have mostly occurred for languages where significant amounts of raw texts are available and where annotated data in downstream tasks have a relatively regular spelling. Conversely, it is not yet completely clear if these models are also well suited for lesser-resourced and more irregular languages. We study the case of Old French, which is in the interesting position of having relatively limited amount of available raw text, but enough annotated resources to assess the relevance of contextual word embedding models for downstream NLP tasks. In particular, we use POS-tagging and dependency parsing to evaluate the quality of such models in a large array of configurations, including models trained from scratch from small amounts of raw text and models pre-trained on other languages but fine-tuned on Medieval French data.

pdf
A Methodology for the Comparison of Human Judgments With Metrics for Coreference Resolution
Mariya Borovikova | Loïc Grobol | Anaïs Halftermeyer | Sylvie Billot
Proceedings of the 2nd Workshop on Human Evaluation of NLP Systems (HumEval)

We propose a method for investigating the interpretability of metrics used for the coreference resolution task through comparisons with human judgments. We provide a corpus with annotations of different error types and human evaluations of their gravity. Our preliminary analysis shows that metrics considerably overlook several error types and overlook errors in general in comparison to humans. This study is conducted on French texts, but the methodology is language-independent.

pdf
Évaluation comparative de systèmes neuronal et statistique pour la résolution de coréférence en langage parlé (Comparative evaluation of neural and statistical coreference resolution on spoken language )
Maëlle Brassier | Théo Azzouza | Jean-Yves Antoine | Loïc Grobol | Anaïs Lefeuvre-Halftermeyer
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Nous présentons OFCoRS, un système de résolution de coréférence, basé sur le français parlé et un ensemble de modèles Random Forest. L’objectif de ce papier est de comparer l’approche statistique d’OFCoRS avec l’approche neuronale du système DeCoFre. Nous soulignons particulièrement les similarités et différences entre les deux systèmes. Nous comparons ensuite leurs performances sur le corpus français ANCOR et observons que les performances d’OFCoRS s’approchent de celles de DeCoFre. Une analyse détaillée montre également que les deux systèmes affichent de faibles performances sur les coréférences indirectes, montrant ainsi qu’on ne peut pas considérer le traitement des anaphores complexes comme un problème résolu.

2021

pdf
Analyse en dépendances du français avec des plongements contextualisés (French dependency parsing with contextualized embeddings)
Loïc Grobol | Benoit Crabbé
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Cet article présente un analyseur syntaxique en dépendances pour le français qui se compare favorablement à l’état de l’art sur la plupart des corpus de référence. L’analyseur s’appuie sur de riches représentations lexicales issues notamment de BERT et de FASTTEXT. On remarque que les représentations lexicales produites par FLAUBERT ont un caractère auto-suffisant pour réaliser la tâche d’analyse syntaxique de manière optimale.

pdf
Is Old French tougher to parse?
Loïc Grobol | Sophie Prévost | Benoît Crabbé
Proceedings of the 20th International Workshop on Treebanks and Linguistic Theories (TLT, SyntaxFest 2021)

2020

pdf
Automatic Period Segmentation of Oral French
Natalia Kalashnikova | Loïc Grobol | Iris Eshkol-Taravella | François Delafontaine
Proceedings of the Twelfth Language Resources and Evaluation Conference

Natural Language Processing in oral speech segmentation is still looking for a minimal unit to analyze. In this work, we present a comparison of two automatic segmentation methods of macro-syntactic periods which allows to take into account syntactic and prosodic components of speech. We compare the performances of an existing tool Analor (Avanzi, Lacheret-Dujour, Victorri, 2008) developed for automatic segmentation of prosodic periods and of CRF models relying on syntactic and / or prosodic features. We find that Analor tends to divide speech into smaller segments and that CRF models detect larger segments rather than macro-syntactic periods. However, in general CRF models perform better results than Analor in terms of F-measure.

pdf
Segmentation automatique en périodes pour le français parlé (Automatic Period Segmentation of Oral French)
Natalia Kalashnikova | Iris Eshkol-Taravella | Loïc Grobol | François Delafontaine
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Nous proposons la comparaison de deux méthodes de segmentation automatique du français parlé en périodes macro-syntaxiques, qui permettent d’analyser la syntaxe et la prosodie du discours. Nous comparons l’outil Analor (Avanzi et al., 2008) qui a été développé pour la segmentation des périodes prosodiques et les modèles de segmentations utilisant des CRF et des traits prosodiques et / ou morphosyntaxiques. Les résultats montrent qu’Analor divise le discours en plus petits segments prosodiques tandis que les modèles CRF détectent des segments plus larges que les périodes macro-syntaxiques. Cependant, les modèles CRF ont de meilleurs résultats qu’Analor en termes de F-mesure.

pdf
Comment arpenter sans mètre : les scores de résolution de chaînes de coréférences sont-ils des métriques ? (Do the standard scores of evaluation of coreference resolution constitute metrics ?)
Adam Lion-Bouton | Loïc Grobol | Jean-Yves Antoine | Sylvie Billot | Anaïs Lefeuvre-Halftermeyer
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). 2e atelier Éthique et TRaitemeNt Automatique des Langues (ETeRNAL)

Cet article présente un travail qui consiste à étudier si les scores les plus utilisés pour l’évaluation de la résolution des coréférences constituent des métriques de similarité normalisées. En adoptant une démarche purement expérimentale, nous avons vérifié si les scores MUC, B3 , CEAF, BLANC, LEA et le meta-score CoNLL respectent les bonnes propriétés qui définissent une telle métrique. Notre étude montre que seul le score CEAFm est potentiellement une métrique de similarité normalisée.

2019

pdf
Modèles neuronaux hybrides pour la modélisation de séquences : le meilleur de trois mondes ()
Marco Dinarelli | Loïc Grobol
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs

Nous proposons une architecture neuronale avec les caractéristiques principales des modèles neuronaux de ces dernières années : les réseaux neuronaux récurrents bidirectionnels, les modèles encodeur-décodeur, et le modèle Transformer. Nous évaluons nos modèles sur trois tâches d’étiquetage de séquence, avec des résultats aux environs de l’état de l’art et souvent meilleurs, montrant ainsi l’intérêt de cette architecture hybride pour ce type de tâches.

pdf
Neural Coreference Resolution with Limited Lexical Context and Explicit Mention Detection for Oral French
Loïc Grobol
Proceedings of the Second Workshop on Computational Models of Reference, Anaphora and Coreference

We propose an end-to-end coreference resolution system obtained by adapting neural models that have recently improved the state-of-the-art on the OntoNotes benchmark to make them applicable to other paradigms for this task. We report the performances of our system on ANCOR, a corpus of transcribed oral French, for which it constitutes a new baseline with proper evaluation.

2018

pdf
Classification par paires de mention pour la résolution des coréférences en français parlé interactif (Mention-pair classification for corefence resolution on spontaneous spoken French)
Maëlle Brassier | Alexis Puret | Augustin Voisin-Marras | Loïc Grobol
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Cet article présente et analyse les premiers résultats obtenus par notre laboratoire pour la construction d’un modèle de résolution des coréférences en français à l’aide de techniques de classifications parmi lesquelles les arbres de décision et les séparateurs à vaste marge. Ce système a été entraîné sur le corpus ANCOR et s’inspire de travaux antérieurs réalisés au laboratoire LATTICE (système CROC). Nous présentons les expérimentations que nous avons menées pour améliorer le système en passant par des classifieurs spécifiques à chaque type de situation interactive, puis chaque type de relation de coréférence.

pdf
ANCOR-AS: Enriching the ANCOR Corpus with Syntactic Annotations
Loïc Grobol | Isabelle Tellier | Éric de la Clergerie | Marco Dinarelli | Frédéric Landragin
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

2017

pdf
Apports des analyses syntaxiques pour la détection automatique de mentions dans un corpus de français oral (Experiences in using deep and shallow parsing to detect entity mentions in oral French)
Loïc Grobol | Isabelle Tellier | Éric de La Clergerie | Marco Dinarelli | Frédéric Landragin
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

Cet article présente trois expériences de détection de mentions dans un corpus de français oral : ANCOR. Ces expériences utilisent des outils préexistants d’analyse syntaxique du français et des méthodes issues de travaux sur la coréférence, les anaphores et la détection d’entités nommées. Bien que ces outils ne soient pas optimisés pour le traitement de l’oral, la qualité de la détection des mentions que nous obtenons est comparable à l’état de l’art des systèmes conçus pour l’écrit dans d’autres langues. Nous concluons en proposant des perspectives pour l’amélioration des résultats que nous obtenons et la construction d’un système end-to-end pour lequel nos expériences peuvent servir de base de travail.

pdf
Interoperable annotation of (co)references in the Democrat project
Loïc Grobol | Frédéric Landragin | Serge Heiden
Proceedings of the 13th Joint ISO-ACL Workshop on Interoperable Semantic Annotation (ISA-13)