2016
pdf
bib
abs
SemLinker, a Modular and Open Source Framework for Named Entity Discovery and Linking
Marie-Jean Meurs
|
Hayda Almeida
|
Ludovic Jean-Louis
|
Eric Charton
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)
This paper presents SemLinker, an open source system that discovers named entities, connects them to a reference knowledge base, and clusters them semantically. SemLinker relies on several modules that perform surface form generation, mutual disambiguation, entity clustering, and make use of two annotation engines. SemLinker was evaluated in the English Entity Discovery and Linking track of the Text Analysis Conference on Knowledge Base Population, organized by the US National Institute of Standards and Technology. Along with the SemLinker source code, we release our annotation files containing the discovered named entities, their types, and position across processed documents.
2014
pdf
bib
abs
Improving Entity Linking using Surface Form Refinement
Eric Charton
|
Marie-Jean Meurs
|
Ludovic Jean-Louis
|
Michel Gagnon
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
In this paper, we present an algorithm for improving named entity resolution and entity linking by using surface form generation and rewriting. Surface forms consist of a word or a group of words that matches lexical units like Paris or New York City. Used as matching sequences to select candidate entries in a knowledge base, they contribute to the disambiguation of those candidates through similarity measures. In this context, misspelled textual sequences (entities) can be impossible to identify due to the lack of available matching surface forms. To address this problem, we propose an algorithm for surface form refinement based on Wikipedia resources. The approach extends the surface form coverage of our entity linking system, and rewrites or reformulates misspelled mentions (entities) prior to starting the annotation process. The algorithm is evaluated on the corpus associated with the monolingual English entity linking task of NIST KBP 2013. We show that the algorithm improves the entity linking system performance.
pdf
bib
Mutual Disambiguation for Entity Linking
Eric Charton
|
Marie-Jean Meurs
|
Ludovic Jean-Louis
|
Michel Gagnon
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)
2013
pdf
bib
Semantic annotation influence on coreference detection using perceptron approach (Influence des annotations sémantiques sur un système de détection de coréférence à base de perceptron multi-couches) [in French]
Eric Charton
|
Michel Gagnon
|
Ludovic Jean-Louis
Proceedings of TALN 2013 (Volume 2: Short Papers)
2012
pdf
bib
Une méthode d’extraction d’information fondée sur les graphes pour le remplissage de formulaires (A Graph-Based Method for Template Filling in Information Extraction) [in French]
Ludovic Jean-Louis
|
Romaric Besançon
|
Olivier Ferret
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN
pdf
bib
abs
Evaluation of a Complex Information Extraction Application in Specific Domain
Romaric Besançon
|
Olivier Ferret
|
Ludovic Jean-Louis
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)
Operational intelligence applications in specific domains are developed using numerous natural language processing technologies and tools. A challenge for this integration is to take into account the limitations of each of these technologies in the global evaluation of the application. We present in this article a complex intelligence application for the gathering of information from the Web about recent seismic events. We present the different components needed for the development of such system, including Information Extraction, Filtering and Clustering, and the technologies behind each component. We also propose an independent evaluation of each component and an insight of their influence in the overall performance of the system.
2011
pdf
bib
Text Segmentation and Graph-based Method for Template Filling in Information Extraction
Ludovic Jean-Louis
|
Romaric Besançon
|
Olivier Ferret
Proceedings of 5th International Joint Conference on Natural Language Processing
pdf
bib
abs
Une approche faiblement supervisée pour l’extraction de relations à large échelle (A weakly supervised approach to large scale relation extraction)
Ludovic Jean-Louis
|
Romaric Besançon
|
Olivier Ferret
|
Adrien Durand
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Les systèmes d’extraction d’information traditionnels se focalisent sur un domaine spécifique et un nombre limité de relations. Les travaux récents dans ce domaine ont cependant vu émerger la problématique des systèmes d’extraction d’information à large échelle. À l’instar des systèmes de question-réponse en domaine ouvert, ces systèmes se caractérisent à la fois par le traitement d’un grand nombre de relations et par une absence de restriction quant aux domaines abordés. Dans cet article, nous présentons un système d’extraction d’information à large échelle fondé sur un apprentissage faiblement supervisé de patrons d’extraction de relations. Cet apprentissage repose sur la donnée de couples d’entités en relation dont la projection dans un corpus de référence permet de constituer la base d’exemples de relations support de l’induction des patrons d’extraction. Nous présentons également les résultats de l’application de cette approche dans le cadre d’évaluation défini par la tâche KBP de l’évaluation TAC 2010.
2010
pdf
bib
abs
Utilisation d’indices temporels pour la segmentation événementielle de textes
Ludovic Jean-Louis
|
Romaric Besançon
|
Olivier Ferret
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans le domaine de l’Extraction d’Information, une place importante est faite à l’extraction d’événements dans des dépêches d’actualité, particulièrement justifiée dans le contexte d’applications de veille. Or il est fréquent qu’une dépêche d’actualité évoque plusieurs événements de même nature pour les comparer. Nous proposons dans cet article d’étudier des méthodes pour segmenter les textes en séparant les événements, dans le but de faciliter le rattachement des informations pertinentes à l’événement principal. L’idée est d’utiliser des modèles d’apprentissage statistique exploitant les marqueurs temporels présents dans les textes pour faire cette segmentation. Nous présentons plus précisément deux modèles (HMM et CRF) entraînés pour cette tâche et, en faisant une évaluation de ces modèles sur un corpus de dépêches traitant d’événements sismiques, nous montrons que les méthodes proposées permettent d’obtenir des résultats au moins aussi bons que ceux d’une approche ad hoc, avec une approche beaucoup plus générique.