2024
pdf
bib
abs
Participation du CRIM à DEFT 2024 : Utilisation de petits modèles de Langue pour des QCMs dans le domaine médical
Ahmed Moubtahij
|
Charles-William Cummings
|
Azur Handan
|
Edith Galy
|
Eric Charton
Actes du Défi Fouille de Textes@TALN 2024
Ce papier décrit le travail de l’équipe du CRIM (Centre de recherche en Informatique de Montréal) dans le cadre du Défi Fouille de textes 2024. Nous présentons les expériences que nous avons menées dans le cadre de la tâche principale consistant à identifier automatiquement, pour une question donnée issue d’annales d’examens de pharmacie, l’ensemble des réponses correctes parmi les cinq proposées. La contrainte est d’utiliser un système de moins de 3 milliards de paramètres dont les données d’entraînement sont connues. Pour ce faire, nous avons testé des approches impliquant du few-shot prompting, du RAG, de l’affinage et de la génération contrainte en dernier recours.
2020
pdf
abs
Cooking Up a Neural-based Model for Recipe Classification
Elham Mohammadi
|
Nada Naji
|
Louis Marceau
|
Marc Queudot
|
Eric Charton
|
Leila Kosseim
|
Marie-Jean Meurs
Proceedings of the Twelfth Language Resources and Evaluation Conference
In this paper, we propose a neural-based model to address the first task of the DEFT 2013 shared task, with the main challenge of a highly imbalanced dataset, using state-of-the-art embedding approaches and deep architectures. We report on our experiments on the use of linguistic features, extracted by Charton et. al. (2014), in different neural models utilizing pretrained embeddings. Our results show that all of the models that use linguistic features outperform their counterpart models that only use pretrained embeddings. The best performing model uses pretrained CamemBERT embeddings as input and CNN as the hidden layer, and uses additional linguistic features. Adding the linguistic features to this model improves its performance by 4.5% and 11.4% in terms of micro and macro F1 scores, respectively, leading to state-of-the-art results and an improved classification of the rare classes.
pdf
abs
Du bon usage d’ingrédients linguistiques spéciaux pour classer des recettes exceptionnelles (Using Special Linguistic Ingredients to Classify Exceptional Recipes )
Elham Mohammadi
|
Louis Marceau
|
Eric Charton
|
Leila Kosseim
|
Luka Nerima
|
Marie-Jean Meurs
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
Nous présentons un modèle d’apprentissage automatique qui combine modèles neuronaux et linguistiques pour traiter les tâches de classification dans lesquelles la distribution des étiquettes des instances est déséquilibrée. Les performances de ce modèle sont mesurées à l’aide d’expériences menées sur les tâches de classification de recettes de cuisine de la campagne DEFT 2013 (Grouin et al., 2013). Nous montrons que les plongements lexicaux (word embeddings) associés à des méthodes d’apprentissage profond obtiennent de meilleures performances que tous les algorithmes déployés lors de la campagne DEFT. Nous montrons aussi que ces mêmes classifieurs avec plongements lexicaux peuvent gagner en performance lorsqu’un modèle linguistique est ajouté au modèle neuronal. Nous observons que l’ajout d’un modèle linguistique au modèle neuronal améliore les performances de classification sur les classes rares.
2016
pdf
abs
SemLinker, a Modular and Open Source Framework for Named Entity Discovery and Linking
Marie-Jean Meurs
|
Hayda Almeida
|
Ludovic Jean-Louis
|
Eric Charton
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)
This paper presents SemLinker, an open source system that discovers named entities, connects them to a reference knowledge base, and clusters them semantically. SemLinker relies on several modules that perform surface form generation, mutual disambiguation, entity clustering, and make use of two annotation engines. SemLinker was evaluated in the English Entity Discovery and Linking track of the Text Analysis Conference on Knowledge Base Population, organized by the US National Institute of Standards and Technology. Along with the SemLinker source code, we release our annotation files containing the discovered named entities, their types, and position across processed documents.
2014
pdf
abs
A multimodal interpreter for 3D visualization and animation of verbal concepts
Coline Claude-Lachenaud
|
Éric Charton
|
Benoît Ozell
|
Michel Gagnon
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
We present an algorithm intended to visually represent the sense of verb related to an object described in a text sequence, as a movement in 3D space. We describe a specific semantic analyzer, based on a standard verbal ontology, dedicated to the interpretation of action verbs as spatial actions. Using this analyzer, our system build a generic 3D graphical path for verbal concepts allowing space representation, listed as SelfMotion concepts in the FrameNet ontology project. The object movement is build by first extracting the words and enriching them with the semantic analyzer. Then, weight tables, necessary to obtain characteristics values (orientation, shape, trajectory...) for the verb are used in order to get a 3D path, as realist as possible. The weight tables were created to make parallel between features defined for SelfMotion verbal concept (some provided by FrameNet, other determined during the project) and values used in the final algorithm used to create 3D moving representations from input text. We evaluate our analyzer on a corpus of short sentences and presents our results.
pdf
abs
Improving Entity Linking using Surface Form Refinement
Eric Charton
|
Marie-Jean Meurs
|
Ludovic Jean-Louis
|
Michel Gagnon
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
In this paper, we present an algorithm for improving named entity resolution and entity linking by using surface form generation and rewriting. Surface forms consist of a word or a group of words that matches lexical units like Paris or New York City. Used as matching sequences to select candidate entries in a knowledge base, they contribute to the disambiguation of those candidates through similarity measures. In this context, misspelled textual sequences (entities) can be impossible to identify due to the lack of available matching surface forms. To address this problem, we propose an algorithm for surface form refinement based on Wikipedia resources. The approach extends the surface form coverage of our entity linking system, and rewrites or reformulates misspelled mentions (entities) prior to starting the annotation process. The algorithm is evaluated on the corpus associated with the monolingual English entity linking task of NIST KBP 2013. We show that the algorithm improves the entity linking system performance.
pdf
Mutual Disambiguation for Entity Linking
Eric Charton
|
Marie-Jean Meurs
|
Ludovic Jean-Louis
|
Michel Gagnon
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)
2013
pdf
Semantic annotation influence on coreference detection using perceptron approach (Influence des annotations sémantiques sur un système de détection de coréférence à base de perceptron multi-couches) [in French]
Eric Charton
|
Michel Gagnon
|
Ludovic Jean-Louis
Proceedings of TALN 2013 (Volume 2: Short Papers)
2012
pdf
abs
A disambiguation resource extracted from Wikipedia for semantic annotation
Eric Charton
|
Michel Gagnon
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)
The Semantic Annotation (SA) task consists in establishing the relation between a textual entity (word or group of words designating a named entity of the real world or a concept) and its corresponding entity in an ontology. The main difficulty of this task is that a textual entity might be highly polysemic and potentially related to many different ontological representations. To solve this specific problem, various Information Retrieval techniques can be used. Most of those involves contextual words to estimate wich exact textual entity have to be recognized. In this paper, we present a resource of contextual words that can be used by IR algorithms to establish a link between a named entity (NE) in a text and an entry point to its semantic description in the LinkedData Network.
2011
pdf
bib
abs
Génération automatique de motifs de détection d’entités nommées en utilisant des contenus encyclopédiques (Automatic generation of named entity detection patterns using encyclopedic contents)
Eric Charton
|
Michel Gagnon
|
Benoit Ozell
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Les encyclopédies numériques contiennent aujourd’hui de vastes inventaires de formes d’écritures pour des noms de personnes, de lieux, de produits ou d’organisation. Nous présentons un système hybride de détection d’entités nommées qui combine un classifieur à base de Champs Conditionnel Aléatoires avec un ensemble de motifs de détection extraits automatiquement d’un contenu encyclopédique. Nous proposons d’extraire depuis des éditions en plusieurs langues de l’encyclopédie Wikipédia de grandes quantités de formes d’écriture que nous utilisons en tant que motifs de détection des entités nommées. Nous décrivons une méthode qui nous assure de ne conserver dans cette ressources que des formes non ambiguës susceptibles de venir renforcer un système de détection d’entités nommées automatique. Nous procédons à un ensemble d’expériences qui nous permettent de comparer un système d’étiquetage à base de CRF avec un système utilisant exclusivement des motifs de détection. Puis nous fusionnons les résultats des deux systèmes et montrons qu’un gain de performances est obtenu grâce à cette proposition.
pdf
Démonstration de l’API de NLGbAse (Demonstration of the NLGbAse API)
François-Xavier Desmarais
|
Éric Charton
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
pdf
Poly-co: a multilayer perceptron approach for coreference detection
Eric Charton
|
Michel Gagnon
Proceedings of the Fifteenth Conference on Computational Natural Language Learning: Shared Task
2010
pdf
abs
Extension d’un système d’étiquetage d’entités nommées en étiqueteur sémantique
Eric Charton
|
Michel Gagnon
|
Benoit Ozell
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
L’étiquetage sémantique consiste à associer un ensemble de propriétés à une séquence de mots contenue dans un texte. Bien que proche de la tâche d’étiquetage par entités nommées, qui revient à attribuer une classe de sens à un mot, la tâche d’étiquetage ou d’annotation sémantique cherche à établir la relation entre l’entité dans son texte et sa représentation ontologique. Nous présentons un étiqueteur sémantique qui s’appuie sur un étiqueteur d’entités nommées pour mettre en relation un mot ou un groupe de mots avec sa représentation ontologique. Son originalité est d’utiliser une ontologie intermédiaire de nature statistique pour établir ce lien.
pdf
Poly-co: An Unsupervised Co-reference Detection System
Éric Charton
|
Michel Gagnon
|
Benoit Ozell
Proceedings of the 6th International Natural Language Generation Conference
pdf
abs
NLGbAse: A Free Linguistic Resource for Natural Language Processing Systems
Eric Charton
|
Juan-Manuel Torres-Moreno
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
Availability of labeled language resources, such as annotated corpora and domain dependent labeled language resources is crucial for experiments in the field of Natural Language Processing. Most often, due to lack of resources, manual verification and annotation of electronic text material is a prerequisite for the development of NLP tools. In the context of under-resourced language, the lack of copora becomes a crucial problem because most of the research efforts are supported by organizations with limited funds. Using free, multilingual and highly structured corpora like Wikipedia to produce automatically labeled language resources can be an answer to those needs. This paper introduces NLGbAse, a multilingual linguistic resource built from the Wikipedia encyclopedic content. This system produces structured metadata which make possible the automatic annotation of corpora with syntactical and semantical labels. A metadata contains semantical and statistical informations related to an encyclopedic document. To validate our approach, we built and evaluated a Named Entity Recognition tool, trained with Wikipedia corpora annotated by our system.
2009
pdf
abs
Classification d’un contenu encyclopédique en vue d’un étiquetage par entités nommées
Eric Charton
|
Juan-Manuel Torres-Moreno
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
On utilise souvent des ressources lexicales externes pour améliorer les performances des systèmes d’étiquetage d’entités nommées. Les contenus de ces ressources lexicales peuvent être variés : liste de noms propres, de lieux, de marques. On note cependant que la disponibilité de corpus encyclopédiques exhaustifs et ouverts de grande taille tels que Worldnet ou Wikipedia, a fait émerger de nombreuses propositions spécifiques d’exploitation de ces contenus par des systèmes d’étiquetage. Un problème demeure néanmoins ouvert avec ces ressources : celui de l’adaptation de leur taxonomie interne, complexe et composée de dizaines de milliers catégories, aux exigences particulières de l’étiquetage des entités nommées. Pour ces dernières, au plus de quelques centaines de classes sémantiques sont requises. Dans cet article nous explorons cette difficulté et proposons un système complet de transformation d’un arbre taxonomique encyclopédique en une système à classe sémantiques adapté à l’étiquetage d’entités nommées.
pdf
abs
Combinaison de contenus encyclopédiques multilingues pour une reconnaissance d’entités nommées en contexte
Eric Charton
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Dans cet article, nous présentons une méthode de transformation de Wikipédia en ressource d’information externe pour détecter et désambiguïser des entités nommées, en milieu ouvert et sans apprentissage spécifique. Nous expliquons comment nous construisons notre système, puis nous utilisons cinq éditions linguistiques de Wikipédia afin d’enrichir son lexique. Pour finir nous réalisons une évaluation et comparons les performances du système avec et sans compléments lexicaux issus des informations inter-linguistiques, sur une tâche d’extraction d’entités nommées appliquée à un corpus d’articles journalistiques.