Mathieu Lafourcade

2024

Les modèles de langue préentraînés (PLM) constituent aujourd’hui de facto l’épine dorsale de la plupart des systèmes de traitement automatique des langues. Dans cet article, nous présentons Jargon, une famille de PLMs pour des domaines spécialisés du français, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biomédical, et le domaine juridique. Nous utilisons une architecture de transformeur basée sur des méthodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous évaluons et comparons nos modèles à des modèles de l’état de l’art sur un ensemble varié de tâches et de corpus d’évaluation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de données dans un nouveau référentiel d’évaluation en langue française pour ces trois domaines. Nous comparons également diverses configurations d’entraînement : préentraînement prolongé en apprentissage autosupervisé sur les données spécialisées, préentraînement à partir de zéro, ainsi que préentraînement mono et multi-domaines. Nos expérimentations approfondies dans des domaines spécialisés montrent qu’il est possible d’atteindre des performances compétitives en aval, même lors d’un préentraînement avec le mécanisme d’attention approximatif de LinFormer. Pour une reproductibilité totale, nous publions les modèles et les données de préentraînement, ainsi que les corpus utilisés.

Pretrained Language Models (PLMs) are the de facto backbone of most state-of-the-art NLP systems. In this paper, we introduce a family of domain-specific pretrained PLMs for French, focusing on three important domains: transcribed speech, medicine, and law. We use a transformer architecture based on efficient methods (LinFormer) to maximise their utility, since these domains often involve processing long documents. We evaluate and compare our models to state-of-the-art models on a diverse set of tasks and datasets, some of which are introduced in this paper. We gather the datasets into a new French-language evaluation benchmark for these three domains. We also compare various training configurations: continued pretraining, pretraining from scratch, as well as single- and multi-domain pretraining. Extensive domain-specific experiments show that it is possible to attain competitive downstream performance even when pre-training with the approximative LinFormer attention mechanism. For full reproducibility, we release the models and pretraining data, as well as contributed datasets.

pdf abs
Symbolic Learning of Rules for Semantic Relation Types Identification in French Genitive Postnominal Prepositional Phrases
Hani Guenoune | Mathieu Lafourcade
Proceedings of the Workshop on Cognitive Aspects of the Lexicon @ LREC-COLING 2024

We are interested in the semantic relations conveyed by polylexical entities in the postnominal prepositional noun phrases form “A de B” (A of B). After identifying a relevant set of semantic relations types, we proceed, using generative AI, to build a collection of phrases, for each semantic relation type identified. We propose an algorithm for creating rules that allow the selection of the relation between A and B in noun phrases of each type. These rules correspond to selecting from a knowledge base the appropriate neighborhood of a given term. For the phrase “désert d’Algérie” carrying the location relation, the term “désert” is identified as a geographical location, and “Algérie” as a country. These constraints are used to automatically learn a set of rules for selecting the location relation for this type of example. Rules are not exclusive as there may be instances that fall under multiple relations. In the phrase “portrait de sa mère - the portrait of his/her mother”, all of depiction, possession, and producer types are a possible match.

2022

Knowledge graphs applications, in industry and academia, motivate substantial research directions towards large-scale information extraction from various types of resources. Nowadays, most of the available knowledge graphs are either in English or multilingual. In this paper, we introduce RezoJDM16k, a French knowledge graph dataset based on RezoJDM. With 16k nodes, 832k triplets, and 53 relation types, RezoJDM16k can be employed in many NLP downstream tasks for the French language such as machine translation, question-answering, and recommendation systems. Moreover, we provide strong knowledge graph embedding baselines that are used in link prediction tasks for future benchmarking. Compared to the state-of-the-art English knowledge graph datasets used in link prediction, RezoJDM16k shows a similar promising predictive behavior.

2021

pdf abs
Open Information Extraction: Approche Supervisée et Syntaxique pour le Français (Supervised Syntactic Approach for French Open Information Extraction)
Massinissa Atmani | Mathieu Lafourcade
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

L’ Open Information Extraction, est un paradigme d’extraction conçu pour gérer l’adaptation de domaine, la principale difficulté des approches traditionnelles pour l’extraction d’informations. Cependant, la plupart des approches se concentrent sur l’anglais. Ainsi, nous proposons une approche supervisée pour l’OpenIE pour le français, nous développons également un corpus d’entraînement et un référentiel d’évaluation. Nous proposons un nouveau modèle basé en deux étapes pour l’étiquetage de séquence, qui identifie d’abord tous les arguments de la relation avant de les étiqueter. Les expérimentations montrent non seulement que l’approche que nous proposons obtient les meilleurs résultats, mais aussi que l’état de l’art actuel n’est pas assez robuste pour s’adapter à un domaine différent du domaine du corpus d’entraînement.

pdf abs
Extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie dans un corpus métier (Automatic extraction of hypernym and hyponym relations in a professional corpus)
Camille Gosset | Mokhtar Boumedyen Billami | Mathieu Lafourcade | Christophe Bortolaso | Mustapha Derras
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Nous nous intéressons dans cet article à l’extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie à partir d’un corpus de spécialités métier. Le corpus regroupe des ouvrages et articles en français d’expertise juridique et a été partiellement annoté en termes-clés par des experts. Nous prétraitons ces annotations afin de pouvoir les retrouver dans ce corpus et obtenir un concept général pour extraire les relations entre ces termes. Nous décrivons une étude expérimentale qui compare plusieurs méthodes de classification appliquées sur des vecteurs de relations construits à partir d’un modèle Word2Vec. Nous comparons les résultats obtenus grâce à un jeu de données construit à partir de relations d’hyperonymie tirées d’un réseau lexico-sémantique français que nous inversons pour obtenir les relations d’hyponymie. Nos résultats montrent que nous obtenons une classification pouvant atteindre un taux d’exactitude de 92 %.

2020

pdf abs
Réduire l’effort humain d’amélioration des ressources lexicales grâce aux inférences (Reducing the Knowledge Resource Enhancement Human Effort through Inferences)
Nadia Bebeshina | Mathieu Lafourcade
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Les inférences translingues représentent une piste intéressante pour la construction des ressources lexico-sémantiques multilingues. Cependant, la validation des éléments candidats nécessite un effort humain considérable. Nous décrivons une façon de construire des ressources lexico-sémantiques via des inférences monolingue et translingue. Son intérêt principal consiste à implémenter dans le contexte d’une ressource lexico-sémantique multilingue une approche où le processus de construction est un processus auto-apprenant car l’évaluation participe à la construction de celle-ci.

pdf abs
Recherche de similarité thématique en temps réel au sein d’un débat en ligne (Thematic similarity real-time computation during an online debate)
Mathieu Lafourcade | Noémie-Fleur Sandillon-Rezer
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Cet article se focalise sur l’utilisation d’un large réseau lexico-sémantique français pour le calcul de similarité thématique d’interventions au cours d’un débat en ligne dans les lycées, proche du temps réel. Pour cela, notre système extrait des informations sémantiques du réseau et crée à la volée des vecteurs enrichis pour chaque fragment de texte. Les données récupérées sont contextualisées via un algorithme de propagation. Les vecteurs résultat permettent aux fragments de texte d’être comparés. Notre méthode aide à trouver les thématiques émergentes des débats et à identifier des clusters d’opinion. La contrainte temps réel nous force à sélectionner précisément les informations que nous incluons, aussi bien pour les temps de calcul des vecteurs créés que la qualité de ceux-ci.

pdf abs
DEFT 2020 - Extraction d’information fine dans les données cliniques : terminologies spécialisées et graphes de connaissance (Fine-grained Information Extraction in Clinical Data : Dedicated Terminologies and Knowledge Graphs )
Thomas Lemaitre | Camille Gosset | Mathieu Lafourcade | Namrata Patel | Guilhem Mayoral
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Atelier DÉfi Fouille de Textes

Nous présentons dans cet article notre approche à base de règles conçue pour répondre à la tâche 3 de la campagne d’évaluation DEFT 2020. Selon le type d’information à extraire, nous construisons (1) une terminologie spécialisée à partir de ressources médicales et (2) un graphe orienté basé sur les informations extraites de la base de connaissances généraliste et de grande taille - JeuxDeMots.

pdf abs
A Dataset for Anaphora Analysis in French Emails
Hani Guenoune | Kevin Cousot | Mathieu Lafourcade | Melissa Mekaoui | Cédric Lopez
Proceedings of the Third Workshop on Computational Models of Reference, Anaphora and Coreference

In 2019, about 293 billion emails were sent worldwide every day. They are a valuable source of information and knowledge for professionals. Since the 90’s, many studies have been done on emails and have highlighted the need for resources regarding numerous NLP tasks. Due to the lack of available resources for French, very few studies on emails have been conducted. Anaphora resolution in emails is an unexplored area, annotated resources are needed, at least to answer a first question: Does email communication have specifics that must be addressed to tackle the anaphora resolution task? In order to answer this question 1) we build a French emails corpus composed of 100 anonymized professional threads and make it available freely for scientific exploitation. 2) we provide annotations of anaphoric links in the email collection.

pdf abs
Game Design Evaluation of GWAPs for Collecting Word Associations
Mathieu Lafourcade | Le Brun Nathalie
Workshop on Games and Natural Language Processing

GWAP design might have a tremendous effect on its popularity of course but also on the quality of the data collected. In this paper, a comparison is undertaken between two GWAPs for building term association lists, namely JeuxDeMots and Quicky Goose. After comparing both game designs, the Cohen kappa of associative lists in various configurations is computed in order to assess likeness and differences of the data they provide.

pdf abs
Inferences for Lexical Semantic Resource Building with Less Supervision
Nadia Bebeshina | Mathieu Lafourcade
Proceedings of the Twelfth Language Resources and Evaluation Conference

Lexical semantic resources may be built using various approaches such as extraction from corpora, integration of the relevant pieces of knowledge from the pre-existing knowledge resources, and endogenous inference. Each of these techniques needs human supervision in order to deal with the potential errors, mapping difficulties or inferred candidate validation. We detail how various inference processes can be employed for the less supervised lexical semantic resource building. Our experience is based on the combination of different inference techniques for multilingual resource building and evaluation.

2019

pdf abs
Inférence des relations sémantiques dans un réseau lexico-sémantique multilingue (Inferring semantic relations in a multilingual lexical semantic network)
Nadia Bebeshina-Clairet | Mathieu Lafourcade
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

Les méthodes endogènes se trouvent au coeur de la construction des ressources de connaissance telles que les réseaux lexico-sémantiques. Dans le cadre de l’expérience décrite dans le présent article, nous nous focalisons sur les méthodes d’inférence des relations. Nous considérons, en particulier, les cas d’inférence des relations sémantiques et des raffinements de sens. Les différents mécanismes d’inférence des relations sémantiques y compris dans le contexte de polysémie de termes ont été décrits par Zarrouk (2015) pour le contexte monolingue. À notre connaissance, il n’existe pas de travaux concernant l’inférence des relations sémantiques et des raffinements dans le contexte d’amélioration d’une ressource multilingue.

pdf abs
Using a Lexical Semantic Network for the Ontology Building
Nadia Bebeshina-Clairet | Sylvie Despres | Mathieu Lafourcade
Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019)

Building multilingual ontologies is a hard task as ontologies are often data-rich resources. We introduce an approach which allows exploiting structured lexical semantic knowledge for the ontology building. Given a multilingual lexical semantic (non ontological) resource and an ontology model, it allows mining relevant semantic knowledge and make the ontology building and enhancement process faster.

2018

pdf abs
Utilisation d’une base de connaissances de spécialité et de sens commun pour la simplification de comptes-rendus radiologiques (Radiological text simplification using a general knowledge base)
Lionel Ramadier | Mathieu Lafourcade
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Dans le domaine médical, la simplification des textes est à la fois une tâche souhaitable pour les patients et scientifiquement stimulante pour le domaine du traitement automatique du langage naturel. En effet, les comptes rendus médicaux peuvent être difficile à comprendre pour les non spécialistes, essentiellement à cause de termes médicaux spécifiques (prurit, par exemple). La substitution de ces termes par des mots du langage courant peut aider le patient à une meilleure compréhension. Dans cet article, nous présentons une méthode de simplification dans le domaine médical (en français) basée sur un réseau lexico-sémantique. Nous traitons cette difficulté sémantique par le remplacement du terme médical difficile par un synonyme ou terme qui lui est lié sémantiquement à l’aide d’un réseau lexico-sémantique français. Nous présentons dans ce papier, une telle méthode ainsi que son évaluation.

pdf abs
JeuxDeLiens: Word Embeddings and Path-Based Similarity for Entity Linking using the French JeuxDeMots Lexical Semantic Network
Julien Plu | Kevin Cousot | Mathieu Lafourcade | Raphaël Troncy | Giuseppe Rizzo
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Entity linking systems typically rely on encyclopedic knowledge bases such as DBpedia or Freebase. In this paper, we use, instead, a French lexical-semantic network named JeuxDeMots to jointly type and link entities. Our approach combines word embeddings and a path-based similarity resulting in encouraging results over a set of documents from the French Le Monde newspaper.

2017

pdf abs
Parcourir, reconnaître et réfléchir. Combinaison de méthodes légères pour l’extraction de relations sémantiques (Browse, recognize and think)
Mathieu Lafourcade | Nathalie Le Brun
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

La capture de relations sémantiques entre termes à partir de textes est un moyen privilégié de constituer/alimenter une base de connaissances, ressource indispensable pour l’analyse de textes. Nous proposons et évaluons la combinaison de trois méthodes de production de relations lexicosémantiques.

pdf abs
Si les souris étaient des reptiles, alors les reptiles pourraient être des mammifères ou Comment détecter les anomalies dans le réseau JDM ? (If mice were reptiles, then the reptiles could be mammals, or How to detect errors in a lexical network?)
Alain Joubert | Mathieu Lafourcade | Nathalie Le Brun
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

La correction des erreurs dans une collection de données est un problème délicat. Elle peut être réalisée manuellement par un expert, ou en utilisant des méthodes de crowdsourcing, ou encore automatiquement au moyen d’algorithmes. Nous présentons ici des méthodes automatiques permettant de détecter les erreurs potentielles « secondaires » induites par les mécanismes automatiques d’inférences de relations, lorsqu’ils s’appuient sur des relations erronées « initiales » détectées manuellement. Des résultats encourageants, mesurés sur le réseau JeuxDeMots, nous invitent à envisager également des stratégies qui permettraient de détecter automatiquement les relations erronées « initiales », ce qui pourrait conduire à une détection automatique de la majorité des erreurs présentes dans le réseau.

pdf abs
Extracting semantic relations via the combination of inferences, schemas and cooccurrences
Mathieu Lafourcade | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017

Extracting semantic relations from texts is a good way to build and supply a knowledge base, an indispensable resource for text analysis. We propose and evaluate the combination of three ways of producing lexical-semantic relations.

pdf abs
If mice were reptiles, then reptiles could be mammals or How to detect errors in the JeuxDeMots lexical network?
Mathieu Lafourcade | Alain Joubert | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017

Correcting errors in a data set is a critical issue. This task can be either hand-made by experts, or by crowdsourcing methods, or automatically done using algorithms. Although the rate of errors present in the JeuxDeMots network is rather low, it is important to reduce it. We present here automatic methods for detecting potential secondary errors that would result from automatic inference mechanisms when they rely on an initial error manually detected. Encouraging results also invite us to consider strategies that would automatically detect “erroneous” initial relations, which could lead to the automatic detection of the majority of errors in the network.

pdf
Ambiguss, a game for building a Sense Annotated Corpus for French
Mathieu Lafourcade | Nathalie Le Brun
Proceedings of the 12th International Conference on Computational Semantics (IWCS) — Short papers

pdf
Explicative Path Finding in a Semantic Network
Kévin Cousot | Mathieu Lafourcade
Proceedings of the Computing Natural Language Inference Workshop

pdf
Identifying Polysemous Words and Inferring Sense Glosses in a Semantic Network
Maxime Chapuis | Mathieu Lafourcade
Proceedings of the Computing Natural Language Inference Workshop

2016

pdf abs
Construire un lexique de sentiments par crowdsourcing et propagation (Building a sentiment lexicon through crowdsourcing and spreading)
Mathieu Lafourcade | Nathalie Le Brun | Alain Joubert
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Cet article présente une méthode de construction d’une ressource lexicale de sentiments/émotions. Son originalité est d’associer le crowdsourcing via un GWAP (Game With A Purpose) à un algorithme de propagation, les deux ayant pour support et source de données le réseau lexical JeuxDeMots. Nous décrivons le jeu permettant de collecter des informations de sentiments, ainsi que les principes et hypothèses qui sous-tendent le fonctionnement de l’algorithme qui les propage au sein du réseau. Enfin, nous donnons les résultats quantitatifs et expliquons les méthodes d’évaluation qualitative des données obtenues, à la fois par le jeu et par la propagation par l’algorithme. Ces méthodes incluent une comparaison avec Emolex, une autre ressource de sentiments/émotions.

pdf abs
Patrons sémantiques pour l’extraction de relations entre termes - Application aux comptes rendus radiologiques (Here the title in English)
Lionel Ramadier | Mathieu Lafourcade
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Dans cet article nous nous intéressons à la tâche d’extraction de relations sémantiques dans les textes médicaux et plus particulièrement dans les comptes rendus radiologiques. L’identification de relations sémantiques est une tâche importante pour plusieurs applications (recherche d’information, génération de résumé, etc). Nous proposons une approche fondée sur l’utilisation de patrons sémantiques vérifiant des contraintes dans une base de connaissances.

pdf abs
Semantic Relation Extraction with Semantic Patterns Experiment on Radiology Reports
Mathieu Lafourcade | Lionel Ramadier
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

This work presents a practical system for indexing terms and relations from French radiology reports, called IMAIOS. In this paper, we present how semantic relations (causes, consequences, symptoms, locations, parts...) between medical terms can be extracted. For this purpose, we handcrafted some linguistic patterns from on a subset of our radiology report corpora. As semantic patterns (de (of)) may be too general or ambiguous, semantic constraints have been added. For instance, in the sentence néoplasie du sein (neoplasm of breast) the system knowing neoplasm as a disease and breast as an anatomical location, identify the relation as being a location: neoplasm r-lieu breast. An evaluation of the effect of semantic constraints is proposed.

2015

pdf abs
Vous aimez ?...ou pas ? LikeIt, un jeu pour construire une ressource lexicale de polarité
Mathieu Lafourcade | Nathalie Le Brun | Alain Joubert
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

En analyse de discours ou d’opinion, savoir caractériser la connotation générale d’un texte, les sentiments qu’il véhicule, est une aptitude recherchée, qui suppose la constitution préalable d’une ressource lexicale de polarité. Au sein du réseau lexical JeuxDeMots, nous avons mis au point LikeIt, un jeu qui permet d’affecter une valeur positive, négative, ou neutre à un terme, et de constituer ainsi pour chaque terme, à partir des votes, une polarité résultante. Nous présentons ici l’analyse quantitative des données de polarité obtenues, ainsi que la méthode pour les valider qualitativement.

pdf abs
Augmentation d’index par propagation sur un réseau lexical Application aux comptes rendus de radiologie
Mathieu Lafourcade | Lionel Ramadier
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les données médicales étant de plus en plus informatisées, le traitement sémantiquement efficace des rapports médicaux est devenu une nécessité. La recherche d’images radiologiques peut être grandement facilitée grâce à l’indexation textuelle des comptes rendus associés. Nous présentons un algorithme d’augmentation d’index de comptes rendus fondé sur la propagation d’activation sur un réseau lexico-sémantique généraliste.

pdf
Collecting and Evaluating Lexical Polarity with A Game With a Purpose
Mathieu Lafourcade | Alain Joubert | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing

pdf
Medical imaging report indexing: enrichment of index through an algorithm of spreading over a lexico-semantic network
Mathieu Lafourcade | Lionel Ramadier
Proceedings of the International Conference Recent Advances in Natural Language Processing

2014

pdf abs
Propa-L: a semantic filtering service from a lexical network created using Games With A Purpose
Mathieu Lafourcade | Karën Fort
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

This article presents Propa-L, a freely accessible Web service that allows to semantically filter a lexical network. The language resources behind the service are dynamic and created through Games With A Purpose. We show an example of application of this service: the generation of a list of keywords for parental filtering on the Web, but many others can be envisaged. Moreover, the propagation algorithm we present here can be applied to any lexical network, in any language.

pdf abs
Relation Inference in Lexical Networks ... with Refinements
Manel Zarrouk | Mathieu Lafourcade
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

Improving lexical networks quality is an important issue in the creation process of these language resources. This can be done by automatically inferring new relations from already existing ones with the purpose of (1) densifying the relations to cover the eventual lack of information and (2) detecting errors. In this paper, we devise such an approach applied to the JeuxDeMots lexical network, which is a freely available lexical and semantic resource for French. We first present the principles behind the lexical network construction with crowdsourcing and games with a purpose and illustrated them with JeuxDeMots (JDM). Then, we present the outline of an elicitation engine based on an inference engine using schemes like deduction, induction and abduction which will be referenced and briefly presented and we will especially highlight the new scheme (Relation Inference Scheme with Refinements) added to our system. An experiment showing the relevance of this scheme is then presented.

pdf
Annotations and inference of relations in a lexical semantic network : Applied to radiology (Annotations et inférences de relations dans un réseau lexico-sémantique: application à la radiologie) [in French]
Lionel Ramadier | Manel Zarrouk | Mathieu Lafourcade | Antoine Micheau
Proceedings of TALN 2014 (Volume 1: Long Papers)

pdf
Colors of People (Les couleurs des gens) [in French]
Mathieu Lafourcade | Nathalie Le Brun | Virginie Zampa
Proceedings of TALN 2014 (Volume 2: Short Papers)

pdf
Inferring Knowledge with Word Refinements in a Crowdsourced Lexical-Semantic Network
Manel Zarrouk | Mathieu Lafourcade
Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers

pdf
About Inferences in a Crowdsourced Lexical-Semantic Network
Mathieu Lafourcade | Manel Zarrouk | Alain Joubert
Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics

2013

pdf
Inductive and deductive inferences in a Crowdsourced Lexical-Semantic Network (Inférences déductives et réconciliation dans un réseau lexico-sémantique) [in French]
Manel Zarrouk | Mathieu Lafourcade | Alain Joubert
Proceedings of TALN 2013 (Volume 1: Long Papers)

pdf
Inductive and deductive inferences in a Crowdsourced Lexical-Semantic Network
Manel Zarrouk | Mathieu Lafourcade | Alain Joubert
Proceedings of the International Conference Recent Advances in Natural Language Processing RANLP 2013

2012

pdf bib
Long Tail in Weighted Lexical Networks
Mathieu Lafourcade | Alain Joubert
Proceedings of the 3rd Workshop on Cognitive Aspects of the Lexicon

pdf abs
A new dynamic approach for lexical networks evaluation
Alain Joubert | Mathieu Lafourcade
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

Since September 2007, a large scale lexical network for French is under construction with methods based on popular consensus by means of games (under the JeuxDeMots project). To assess the resource quality, we decided to adopt an approach similar to its construction, that is to say an evaluation by laymen on open class vocabulary with a Tip of the Tongue tool.

2011

pdf bib
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées
Mathieu Lafourcade | Violaine Prince
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées

pdf bib
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Mathieu Lafourcade | Violaine Prince
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

pdf abs
Évaluation et consolidation d’un réseau lexical via un outil pour retrouver le mot sur le bout de la langue (Evaluation and consolidation of a lexical network via a tool to find the word on the tip of the tongue)
Alain Joubert | Mathieu Lafourcade | Didier Schwab | Michael Zock
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Depuis septembre 2007, un réseau lexical de grande taille pour le Français est en cours de construction à l’aide de méthodes fondées sur des formes de consensus populaire obtenu via des jeux (projet JeuxDeMots). L’intervention d’experts humains est marginale en ce qu’elle représente moins de 0,5% des relations du réseau et se limite à des corrections, à des ajustements ainsi qu’à la validation des sens de termes. Pour évaluer la qualité de cette ressource construite par des participants de jeu (utilisateurs non experts) nous adoptons une démarche similaire à celle de sa construction, à savoir, la ressource doit être validée sur un vocabulaire de classe ouverte, par des non-experts, de façon stable (persistante dans le temps). Pour ce faire, nous proposons de vérifier si notre ressource est capable de servir de support à la résolution du problème nommé ‘Mot sur le Bout de la Langue’ (MBL). A l’instar de JeuxdeMots, l’outil développé peut être vu comme un jeu en ligne. Tout comme ce dernier, il permet d’acquérir de nouvelles relations, constituant ainsi un enrichissement de notre réseau lexical.

pdf bib
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Mathieu Lafourcade | Violaine Prince
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

pdf bib
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Mathieu Lafourcade | Violaine Prince
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

2010

pdf bib abs
Détermination et pondération des raffinements d’un terme à partir de son arbre des usages nommés
Mathieu Lafourcade | Alain Joubert
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Grâce à la participation d’un grand nombre de personnes via des jeux accessibles sur le web, nous avons construit un réseau lexical évolutif de grande taille pour le Français. A partir de cette ressource, nous avons abordé la question de la détermination des sens d’usage d’un terme, puis après avoir introduit la notion de similarité entre ces différents usages, nous avons pu obtenir pour un terme son arbre des usages : la racine regroupe tous les usages du terme et une descente dans l’arbre correspond à un raffinement de ces usages. Le nommage des différents noeuds est effectué lors d’une descente en largeur. En simplifiant l’arbre des usages nommés, nous déterminons les différents sens d’un terme, sens que nous introduisons dans le réseau lexical en tant que noeuds de raffinement du terme considéré. Nous terminons par une évaluation empirique des résultats obtenus.

2009

pdf
Similitude entre les sens d’usage d’un terme dans un réseau lexical [Similarity between term senses in a lexical network]
Mathieu Lafourcade | Alain Joubert
Traitement Automatique des Langues, Volume 50, Numéro 1 : Varia [Varia]

pdf abs
Sens et usages d’un terme dans un réseau lexical évolutif
Mathieu Lafourcade | Alain Joubert | Stéphane Riou
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

L’obtention d’informations lexicales fiables est un enjeu primordial en TALN, mais cette collecte peut s’avérer difficile. L’approche présentée ici vise à pallier les écueils de cette difficulté en faisant participer un grand nombre de personnes à un projet contributif via des jeux accessibles sur le web. Ainsi, les joueurs vont construire le réseau lexical, en fournissant de plusieurs manières possibles des associations de termes à partir d’un terme cible et d’une consigne correspondant à une relation typée. Le réseau lexical ainsi produit est de grande taille et comporte une trentaine de types de relations. A partir de cette ressource, nous abordons la question de la détermination des différents sens et usages d’un terme. Ceci est réalisé en analysant les relations entre ce terme et ses voisins immédiats dans le réseau et en calculant des cliques ou des quasi-cliques. Ceci nous amène naturellement à introduire la notion de similarité entre cliques, que nous interprétons comme une mesure de similarité entre ces différents sens et usages. Nous pouvons ainsi construire pour un terme son arbre des usages, qui est une structure de données exploitable en désambiguïsation de sens. Nous présentons quelques résultats obtenus en soulignant leur caractère évolutif.

2008

pdf abs
Détermination des sens d’usage dans un réseau lexical construit à l’aide d’un jeu en ligne
Mathieu Lafourcade | Alain Joubert
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Les informations lexicales, indispensables pour les tâches réalisées en TALN, sont difficiles à collecter. En effet, effectuée manuellement, cette tâche nécessite la compétence d’experts et la durée nécessaire peut être prohibitive, alors que réalisée automatiquement, les résultats peuvent être biaisés par les corpus de textes retenus. L’approche présentée ici consiste à faire participer un grand nombre de personnes à un projet contributif en leur proposant une application ludique accessible sur le web. A partir d’une base de termes préexistante, ce sont ainsi les joueurs qui vont construire le réseau lexical, en fournissant des associations qui ne sont validées que si elles sont proposées par au moins une paire d’utilisateurs. De plus, ces relations typées sont pondérées en fonction du nombre de paires d’utilisateurs qui les ont proposées. Enfin, nous abordons la question de la détermination des différents sens d’usage d’un terme, en analysant les relations entre ce terme et ses voisins immédiats dans le réseau lexical, avant de présenter brièvement la réalisation et les premiers résultats obtenus.

pdf abs
Evolutionary Basic Notions for a Thematic Representation of General Knowledge
Alain Joubert | Mathieu Lafourcade
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

In the field of Natural Language Processing, in order to work out a thematic representation system of general knowledge, methods relying on thesaurus have been used for about twenty years. A thesaurus consists of a set of concepts which define a generating system of a vector space modelling general knowledge. These concepts, often organized in a treelike structure, constitute a fundamental, but completely fixed tool. Even if the concepts evolve (we think for example of the technical fields), a thesaurus as for it can evolve only at the time of a particularly heavy process, because it requires the collaboration of human experts. After detailing the characteristics which a generating system of the vector space of knowledge modelling must have, we define the basic notions. Basic notions, whose construction is initially based on the concepts of a thesaurus, constitute another generating system of this vector space. We then approach the determination of the acceptions expressing the basic notions. Lastly, we clarify how, being freed from the concepts of the thesaurus, the basic notions evolve progressively with the analysis of new texts by an iterative process.

2007

pdf abs
Les vecteurs conceptuels, un outil complémentaire aux réseaux lexicaux
Didier Schwab | Lian Tze Lim | Mathieu Lafourcade
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Fréquemment utilisés dans le Traitement Automatique des Langues Naturelles, les réseaux lexicaux font aujourd’hui l’objet de nombreuses recherches. La plupart d’entre eux, et en particulier le plus célèbre WordNet, souffrent du manque d’informations syntagmatiques mais aussi d’informations thématiques (« problème du tennis »). Cet article présente les vecteurs conceptuels qui permettent de représenter les idées contenues dans un segment textuel quelconque et permettent d’obtenir une vision continue des thématiques utilisées grâce aux distances calculables entre eux. Nous montrons leurs caractéristiques et en quoi ils sont complémentaires des réseaux lexico-sémantiques. Nous illustrons ce propos par l’enrichissement des données de WordNet par des vecteurs conceptuels construits par émergence.

2006

pdf abs
Conceptual Vector Learning - Comparing Bootstrapping from a Thesaurus or Induction by Emergence
Mathieu Lafourcade
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)

In the framework of the Word Sense Disambiguation (WSD) and lexical transfer in Machine Translation (MT), the representation of word meanings is one critical issue. The conceptual vector model aims at representing thematic activations for chunks of text, lexical entries, up to whole documents. Roughly speaking, vectors are supposed to encode ideas associated to words or expressions. In this paper, we first expose the conceptual vectors model and the notions of semantic distance and contextualization between terms. Then, we present in details the text analysis process coupled with conceptual vectors, which is used in text classification, thematic analysis and vector learning. The question we focus on is whether a thesaurus is really needed and desirable for bootstrapping the learning. We conducted two experiments with and without a thesaurus and are exposing here some comparative results. Our contribution is that dimension distribution is done more regularly by an emergent procedure. In other words, the resources are more efficiently exploited with an emergent procedure than with a thesaurus terms (concepts) as listed in a thesaurus somehow relate to their importance in the language but nor to their frequency in usage neither to their power of discrimination or representativeness.

pdf abs
Approche évolutive des notions de base pour une représentation thématique des connaissances générales
Alain Joubert | Mathieu Lafourcade | Didier Schwab
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Dans le domaine du Traitement Automatique du Langage Naturel, pour élaborer un système de représentation thématique des connaissances générales, des méthodes s’appuyant sur des thésaurus sont utilisées depuis une quinzaine d’années. Un thésaurus est constitué d’un ensemble de concepts qui définissent un système générateur d’un espace vectoriel modélisant les connaissances générales. Ces concepts, souvent organisés en une hiérarchie arborescente, constituent un instrument fondamental, mais totalement figé. Même si les notions évoluent (nous pensons par exemple aux domaines techniques), un thésaurus ne peut quant à lui être modifié que lors d’un processus particulièrement lourd, car nécessitant la collaboration d’experts humains. C’est à ce problème que nous nous attaquons ici. Après avoir détaillé les caractéristiques que doit posséder un système générateur de l’espace vectoriel de modélisation des connaissances, nous définissons les « notions de base ». Celles-ci, dont la construction s’appuie initialement sur les concepts d’un thésaurus, constituent un autre système générateur de cet espace vectoriel. Nous abordons la détermination des acceptions exprimant les notions de base, ce qui nous amène naturellement à nous poser la question de leur nombre. Enfin, nous explicitons comment, s’affranchissant des concepts du thésaurus, ces notions de base évoluent par un processus itératif au fur et à mesure de l’analyse de nouveaux textes.

2005

pdf abs
Extraction semi-supervisée de couples d’antonymes grâce à leur morphologie
Didier Schwab | Mathieu Lafourcade | Violaine Prince
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans le cadre de la recherche sur la représentation du sens en Traitement Automatique des Langues Naturelles, nous nous concentrons sur la construction d’un système capable d’acquérir le sens des mots, et les relations entre ces sens, à partir de dictionnaires à usage humain, du Web ou d’autres ressources lexicales. Pour l’antonymie, il n’existe pas de listes séparant les antonymies complémentaire, scalaire et duale. Nous présentons dans cet article une approche semi-supervisée permettant de construire ces listes. Notre méthode est basée sur les oppositions de nature morphologique qui peuvent exister entre les items lexicaux. À partir d’un premier ensemble de couples antonymes, elle permet non seulement de construire ces listes mais aussi de trouver des oppositions morphologiques. Nous étudions les résultats obtenus par cette méthode. En particulier, nous présentons les oppositions de préfixes ainsi découvertes et leur validité sur le corpus puis nous discutons de la répartition des types d’antonymie en fonction des couples opposés de préfixes.

2004

pdf abs
Classification automatique de définitions en sens
Fabien Jalabert | Mathieu Lafourcade
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Dans le cadre de la recherche en sémantique lexicale, l’équipe TAL du LIRMM développe actuellement un système d’analyse des aspects thématiques des textes et de désambiguisation lexicale basé sur les vecteurs conceptuels. Pour la construction des vecteurs, les définitions provenant de sources lexicales différentes (dictionnaires à usage humain, listes de synonymes, définitions de thésaurus, . . .) sont analysées. Aucun découpage du sens n’est présent dans la représentation : un vecteur conceptuel est associé à chaque définition et un autre pour représenter le sens global du mot. Nous souhaitons effectuer une catégorisation afin que chaque élément ne soit plus une définition mais un sens. Cette amélioration concerne bien sur directement les applications courantes (désambiguïsation, transfert lexical, . . .) mais a aussi pour objectif majeur d’améliorer l’apprentissage de la base.

2003

pdf abs
Amélioration de liens entre acceptions par fonctions lexicales vectorielles symétriques
Didier Schwab | Mathieu Lafourcade | Violaine Prince
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans le cadre du projet Papillon qui vise à la construction de bases lexicales multilingues par acceptions, nous avons défini des stratégies pour peupler un dictionnaire pivot de liens interlingues à partir d’une base vectorielle monolingue. Il peut y avoir un nombre important de sens par entrée et donc l’identification des acceptions correspondantes peut être erronée. Nous améliorons l’intégrité de la base d’acception grâce à des agents experts dans les fonctions lexicales comme la synonymie, l’antonymie, l’hypéronymie ou l’holonymie. Ces agents sont capable de calculer la pertinence d’une relation sémantique entre deux acceptions par les diverses informations lexicales récoltées et les vecteurs conceptuels. Si une certaine pertinence est au-dessus d’un seuil, ils créent un lien sémantique qui peut être utilisé par d’autres agents chargés par exemple de la désambiguïsation ou du transfert lexical. Les agents vérifiant l’intégrité de la base cherchent les incohérences de la base et en avertissent les lexicographes le cas échéant.

2002

pdf abs
Vers l’apprentissage automatique, pour et par les vecteurs conceptuels, de fonctions lexicales. L’exemple de l’antonymie
Didier Schwab | Mathieu Lafourcade | Violaine Prince
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans le cadre de recherches sur le sens en traitement automatique du langage, nous nous concentrons sur la représentation de l’aspect thématique des segments textuels à l’aide de vecteurs conceptuels. Les vecteurs conceptuels sont automatiquement appris à partir de définitions issues de dictionnaires à usage humain (Schwab, 2001). Un noyau de termes manuellement indexés est nécessaire pour l’amorçage de cette analyse. Lorsque l’item défini s’y prête, ces définitions sont complétées par des termes en relation avec lui. Ces relations sont des fonctions lexicales (Mel’cuk and al, 95) comme l’hyponymie, l’hyperonymie, la synonymie ou l’antonymie. Cet article propose d’améliorer la fonction d’antonymie naïve exposée dans (Schwab, 2001) et (Schwab and al, 2002) grâce à ces informations. La fonction s’auto-modifie, par révision de listes, en fonction des relations d’antonymie avérées entre deux items. Nous exposons la méthode utilisée, quelques résultats puis nous concluons sur les perspectives ouvertes.

pdf
UNL Lexical Selection with Conceptual Vectors
Mathieu Lafourcade | Christian Boitet
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

pdf
Antonymy and Conceptual Vectors
Didier Schwab | Mathieu Lafourcade | Violaine Prince
COLING 2002: The 19th International Conference on Computational Linguistics

2001

pdf abs
Synonymies et vecteurs conceptuels
Mathieu Lafourcade | Violaine Prince
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

La synonymie est une relation importante en TAL mais qui reste problématique. La distinction entre synonymie relative et synonymie subjective permet de contourner certaines difficultés. Dans le cadre des vecteurs conceptuels, il est alors possible de définir formellement des fonctions de test de synonymie et d’en expérimenter l’usage.