Alain Joubert


2017

pdf
Si les souris étaient des reptiles, alors les reptiles pourraient être des mammifères ou Comment détecter les anomalies dans le réseau JDM ? (If mice were reptiles, then the reptiles could be mammals, or How to detect errors in a lexical network?)
Alain Joubert | Mathieu Lafourcade | Nathalie Le Brun
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

La correction des erreurs dans une collection de données est un problème délicat. Elle peut être réalisée manuellement par un expert, ou en utilisant des méthodes de crowdsourcing, ou encore automatiquement au moyen d’algorithmes. Nous présentons ici des méthodes automatiques permettant de détecter les erreurs potentielles « secondaires » induites par les mécanismes automatiques d’inférences de relations, lorsqu’ils s’appuient sur des relations erronées « initiales » détectées manuellement. Des résultats encourageants, mesurés sur le réseau JeuxDeMots, nous invitent à envisager également des stratégies qui permettraient de détecter automatiquement les relations erronées « initiales », ce qui pourrait conduire à une détection automatique de la majorité des erreurs présentes dans le réseau.

pdf
If mice were reptiles, then reptiles could be mammals or How to detect errors in the JeuxDeMots lexical network?
Mathieu Lafourcade | Alain Joubert | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017

Correcting errors in a data set is a critical issue. This task can be either hand-made by experts, or by crowdsourcing methods, or automatically done using algorithms. Although the rate of errors present in the JeuxDeMots network is rather low, it is important to reduce it. We present here automatic methods for detecting potential secondary errors that would result from automatic inference mechanisms when they rely on an initial error manually detected. Encouraging results also invite us to consider strategies that would automatically detect “erroneous” initial relations, which could lead to the automatic detection of the majority of errors in the network.

2016

pdf
Construire un lexique de sentiments par crowdsourcing et propagation (Building a sentiment lexicon through crowdsourcing and spreading)
Mathieu Lafourcade | Nathalie Le Brun | Alain Joubert
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Cet article présente une méthode de construction d’une ressource lexicale de sentiments/émotions. Son originalité est d’associer le crowdsourcing via un GWAP (Game With A Purpose) à un algorithme de propagation, les deux ayant pour support et source de données le réseau lexical JeuxDeMots. Nous décrivons le jeu permettant de collecter des informations de sentiments, ainsi que les principes et hypothèses qui sous-tendent le fonctionnement de l’algorithme qui les propage au sein du réseau. Enfin, nous donnons les résultats quantitatifs et expliquons les méthodes d’évaluation qualitative des données obtenues, à la fois par le jeu et par la propagation par l’algorithme. Ces méthodes incluent une comparaison avec Emolex, une autre ressource de sentiments/émotions.

2015

pdf
Vous aimez ?...ou pas ? LikeIt, un jeu pour construire une ressource lexicale de polarité
Mathieu Lafourcade | Nathalie Le Brun | Alain Joubert
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

En analyse de discours ou d’opinion, savoir caractériser la connotation générale d’un texte, les sentiments qu’il véhicule, est une aptitude recherchée, qui suppose la constitution préalable d’une ressource lexicale de polarité. Au sein du réseau lexical JeuxDeMots, nous avons mis au point LikeIt, un jeu qui permet d’affecter une valeur positive, négative, ou neutre à un terme, et de constituer ainsi pour chaque terme, à partir des votes, une polarité résultante. Nous présentons ici l’analyse quantitative des données de polarité obtenues, ainsi que la méthode pour les valider qualitativement.

pdf
Collecting and Evaluating Lexical Polarity with A Game With a Purpose
Mathieu Lafourcade | Alain Joubert | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing

2014

pdf
About Inferences in a Crowdsourced Lexical-Semantic Network
Mathieu Lafourcade | Manel Zarrouk | Alain Joubert
Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics

2013

pdf
Inductive and deductive inferences in a Crowdsourced Lexical-Semantic Network (Inférences déductives et réconciliation dans un réseau lexico-sémantique) [in French]
Manel Zarrouk | Mathieu Lafourcade | Alain Joubert
Proceedings of TALN 2013 (Volume 1: Long Papers)

pdf
Inductive and deductive inferences in a Crowdsourced Lexical-Semantic Network
Manel Zarrouk | Mathieu Lafourcade | Alain Joubert
Proceedings of the International Conference Recent Advances in Natural Language Processing RANLP 2013

2012

pdf
A new dynamic approach for lexical networks evaluation
Alain Joubert | Mathieu Lafourcade
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

Since September 2007, a large scale lexical network for French is under construction with methods based on popular consensus by means of games (under the JeuxDeMots project). To assess the resource quality, we decided to adopt an approach similar to its construction, that is to say an evaluation by laymen on open class vocabulary with a Tip of the Tongue tool.

pdf bib
Long Tail in Weighted Lexical Networks
Mathieu Lafourcade | Alain Joubert
Proceedings of the 3rd Workshop on Cognitive Aspects of the Lexicon

2011

pdf
Évaluation et consolidation d’un réseau lexical via un outil pour retrouver le mot sur le bout de la langue (Evaluation and consolidation of a lexical network via a tool to find the word on the tip of the tongue)
Alain Joubert | Mathieu Lafourcade | Didier Schwab | Michael Zock
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Depuis septembre 2007, un réseau lexical de grande taille pour le Français est en cours de construction à l’aide de méthodes fondées sur des formes de consensus populaire obtenu via des jeux (projet JeuxDeMots). L’intervention d’experts humains est marginale en ce qu’elle représente moins de 0,5% des relations du réseau et se limite à des corrections, à des ajustements ainsi qu’à la validation des sens de termes. Pour évaluer la qualité de cette ressource construite par des participants de jeu (utilisateurs non experts) nous adoptons une démarche similaire à celle de sa construction, à savoir, la ressource doit être validée sur un vocabulaire de classe ouverte, par des non-experts, de façon stable (persistante dans le temps). Pour ce faire, nous proposons de vérifier si notre ressource est capable de servir de support à la résolution du problème nommé ‘Mot sur le Bout de la Langue’ (MBL). A l’instar de JeuxdeMots, l’outil développé peut être vu comme un jeu en ligne. Tout comme ce dernier, il permet d’acquérir de nouvelles relations, constituant ainsi un enrichissement de notre réseau lexical.

2010

pdf bib
Détermination et pondération des raffinements d’un terme à partir de son arbre des usages nommés
Mathieu Lafourcade | Alain Joubert
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Grâce à la participation d’un grand nombre de personnes via des jeux accessibles sur le web, nous avons construit un réseau lexical évolutif de grande taille pour le Français. A partir de cette ressource, nous avons abordé la question de la détermination des sens d’usage d’un terme, puis après avoir introduit la notion de similarité entre ces différents usages, nous avons pu obtenir pour un terme son arbre des usages : la racine regroupe tous les usages du terme et une descente dans l’arbre correspond à un raffinement de ces usages. Le nommage des différents noeuds est effectué lors d’une descente en largeur. En simplifiant l’arbre des usages nommés, nous déterminons les différents sens d’un terme, sens que nous introduisons dans le réseau lexical en tant que noeuds de raffinement du terme considéré. Nous terminons par une évaluation empirique des résultats obtenus.

2009

pdf
Sens et usages d’un terme dans un réseau lexical évolutif
Mathieu Lafourcade | Alain Joubert | Stéphane Riou
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

L’obtention d’informations lexicales fiables est un enjeu primordial en TALN, mais cette collecte peut s’avérer difficile. L’approche présentée ici vise à pallier les écueils de cette difficulté en faisant participer un grand nombre de personnes à un projet contributif via des jeux accessibles sur le web. Ainsi, les joueurs vont construire le réseau lexical, en fournissant de plusieurs manières possibles des associations de termes à partir d’un terme cible et d’une consigne correspondant à une relation typée. Le réseau lexical ainsi produit est de grande taille et comporte une trentaine de types de relations. A partir de cette ressource, nous abordons la question de la détermination des différents sens et usages d’un terme. Ceci est réalisé en analysant les relations entre ce terme et ses voisins immédiats dans le réseau et en calculant des cliques ou des quasi-cliques. Ceci nous amène naturellement à introduire la notion de similarité entre cliques, que nous interprétons comme une mesure de similarité entre ces différents sens et usages. Nous pouvons ainsi construire pour un terme son arbre des usages, qui est une structure de données exploitable en désambiguïsation de sens. Nous présentons quelques résultats obtenus en soulignant leur caractère évolutif.

2008

pdf
Détermination des sens d’usage dans un réseau lexical construit à l’aide d’un jeu en ligne
Mathieu Lafourcade | Alain Joubert
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Les informations lexicales, indispensables pour les tâches réalisées en TALN, sont difficiles à collecter. En effet, effectuée manuellement, cette tâche nécessite la compétence d’experts et la durée nécessaire peut être prohibitive, alors que réalisée automatiquement, les résultats peuvent être biaisés par les corpus de textes retenus. L’approche présentée ici consiste à faire participer un grand nombre de personnes à un projet contributif en leur proposant une application ludique accessible sur le web. A partir d’une base de termes préexistante, ce sont ainsi les joueurs qui vont construire le réseau lexical, en fournissant des associations qui ne sont validées que si elles sont proposées par au moins une paire d’utilisateurs. De plus, ces relations typées sont pondérées en fonction du nombre de paires d’utilisateurs qui les ont proposées. Enfin, nous abordons la question de la détermination des différents sens d’usage d’un terme, en analysant les relations entre ce terme et ses voisins immédiats dans le réseau lexical, avant de présenter brièvement la réalisation et les premiers résultats obtenus.

pdf
Evolutionary Basic Notions for a Thematic Representation of General Knowledge
Alain Joubert | Mathieu Lafourcade
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

In the field of Natural Language Processing, in order to work out a thematic representation system of general knowledge, methods relying on thesaurus have been used for about twenty years. A thesaurus consists of a set of concepts which define a generating system of a vector space modelling general knowledge. These concepts, often organized in a treelike structure, constitute a fundamental, but completely fixed tool. Even if the concepts evolve (we think for example of the technical fields), a thesaurus as for it can evolve only at the time of a particularly heavy process, because it requires the collaboration of human experts. After detailing the characteristics which a generating system of the vector space of knowledge modelling must have, we define the “basic notions”. Basic notions, whose construction is initially based on the concepts of a thesaurus, constitute another generating system of this vector space. We then approach the determination of the acceptions expressing the basic notions. Lastly, we clarify how, being freed from the concepts of the thesaurus, the basic notions evolve progressively with the analysis of new texts by an iterative process.

2006

pdf
Approche évolutive des notions de base pour une représentation thématique des connaissances générales
Alain Joubert | Mathieu Lafourcade | Didier Schwab
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Dans le domaine du Traitement Automatique du Langage Naturel, pour élaborer un système de représentation thématique des connaissances générales, des méthodes s’appuyant sur des thésaurus sont utilisées depuis une quinzaine d’années. Un thésaurus est constitué d’un ensemble de concepts qui définissent un système générateur d’un espace vectoriel modélisant les connaissances générales. Ces concepts, souvent organisés en une hiérarchie arborescente, constituent un instrument fondamental, mais totalement figé. Même si les notions évoluent (nous pensons par exemple aux domaines techniques), un thésaurus ne peut quant à lui être modifié que lors d’un processus particulièrement lourd, car nécessitant la collaboration d’experts humains. C’est à ce problème que nous nous attaquons ici. Après avoir détaillé les caractéristiques que doit posséder un système générateur de l’espace vectoriel de modélisation des connaissances, nous définissons les « notions de base ». Celles-ci, dont la construction s’appuie initialement sur les concepts d’un thésaurus, constituent un autre système générateur de cet espace vectoriel. Nous abordons la détermination des acceptions exprimant les notions de base, ce qui nous amène naturellement à nous poser la question de leur nombre. Enfin, nous explicitons comment, s’affranchissant des concepts du thésaurus, ces notions de base évoluent par un processus itératif au fur et à mesure de l’analyse de nouveaux textes.