2024
pdf
abs
Combining Deep Learning Models and Lexical Linked Data: Some Insights from the Development of a Multilingual News Named Entity Recognition and Linking Dataset
Emmanuel Cartier
|
Emile Peetermans
Proceedings of the Workshop on Deep Learning and Linked Data (DLnLD) @ LREC-COLING 2024
This paper presents the methodology and outcomes of a Named Entity Recognition and Linking multilingual news benchmark that leverages both Deep learning approaches by using a fine-tuned transformer model to detect mentions of persons, locations and organisations in text, and Linguistic Linked Open Data, through the use of Wikidata to disambiguate mentions and link them to ontology entries. It shows all the advantages of combining both approaches, not only for building the benchmark but also for fine-tuning detection models. We also insist on several perspectives of research to improve the accuracy of a combining system and go further on leveraging the complementary approaches.
pdf
bib
abs
Event Detection in the Socio Political Domain
Emmanuel Cartier
|
Hristo Tanev
Proceedings of the Second Workshop on Natural Language Processing for Political Sciences @ LREC-COLING 2024
In this paper we present two approaches for detection of socio political events: the first is based on manually crafted keyword combinations and the second one is based on a BERT classifier. We compare the performance of the two systems on a dataset of socio-political events. Interestingly, the systems demonstrate complementary performance: both showing their best accuracy on non overlapping sets of event types. In the evaluation section we provide insights on the effect of taxonomy mapping on the event detection evaluation. We also review in the related work section the most important resources and approaches for event extraction in the recent years.
2018
pdf
abs
Néonaute, Enrichissement sémantique pour la recherche d’information ()
Emmanuel Cartier
|
Loïc Galand
|
Peter Stirling
|
Sara Aubry
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Avec l’explosion du nombre de documents numériques accessibles, les besoins en outils pour l’enrichissement sémantique des données textuelles, ainsi que des fonctionnalités avancées de recherche et d’exploration des collections, se font sentir. Cette combinaison entre les domaines de la recherche d’information et du traitement automatique des langues est l’une des caractéristiques du projet Néonaute. Ce projet, financé par la DGLFLF 1 en 2017 (appel Langues et numérique), regroupe la Bibliothèque nationale de France (BnF), le LIPN - RCLN (CNRS UMR 7030) et l’Université de Strasbourg (LILPA, EA 1339). Son objectif principal est de doter les observateurs de la langue française d’un moteur de recherche s’appuyant sur une collection de sites de presse d’actualité, collectés automatiquement par la BnF au titre de sa mission de dépôt légal de l’internet. Sur cette collection, le projet vise à proposer un moteur de recherche de nouvelle génération, disposant d’une indexation enrichie par l’analyse automatique des textes (analyse morphosyntaxique, entités nommées, thématiques), d’une part, et d’outils de recherche, d’exploration et de visualisation multidimensionnelle interactive des résultats, d’autre part.
2017
pdf
abs
Neoveille, a Web Platform for Neologism Tracking
Emmanuel Cartier
Proceedings of the Software Demonstrations of the 15th Conference of the European Chapter of the Association for Computational Linguistics
This paper details a software designed to track neologisms in seven languages through newspapers monitor corpora. The platform combines state-of-the-art processes to track linguistic changes and a web platform for linguists to create and manage their corpora, accept or reject automatically identified neologisms, describe linguistically the accepted neologisms and follow their lifecycle on the monitor corpora. In the following, after a short state-of-the-art in Neologism Retrieval, Analysis and Life-tracking, we describe the overall architecture of the system. The platform can be freely browsed at
www.neoveille.org where detailed presentation is given. Access to the editing modules is available upon request.
pdf
abs
Character Based Pattern Mining for Neology Detection
Gaël Lejeune
|
Emmanuel Cartier
Proceedings of the First Workshop on Subword and Character Level Models in NLP
Detecting neologisms is essential in real-time natural language processing applications. Not only can it enable to follow the lexical evolution of languages, but it is also essential for updating linguistic resources and parsers. In this paper, neology detection is considered as a classification task where a system has to assess whether a given lexical item is an actual neologism or not. We propose a combination of an unsupervised data mining technique and a supervised machine learning approach. It is inspired by current researches in stylometry and on token-level and character-level patterns. We train and evaluate our system on a manually designed reference dataset in French and Russian. We show that this approach is able to largely outperform state-of-the-art neology detection systems. Furthermore, character-level patterns exhibit good properties for multilingual extensions of the system.
2015
pdf
abs
Extraction automatique de relations sémantiques dans les dé finitions : approche hybride, construction d’un corpus de relations sémantiques pour le français
Emmanuel Cartier
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cet article présente une expérimentation visant à construire une ressource sémantique pour le français contemporain à partir d’un corpus d’environ un million de définitions tirées de deux ressources lexicographiques (Trésor de la Langue Française, Wiktionary) et d’une ressource encyclopédique (Wikipedia). L’objectif est d’extraire automatiquement dans les définitions différentes relations sémantiques : hyperonymie, synonymie, méronymie, autres relations sémantiques. La méthode suivie combine la précision des patrons lexico-syntaxiques et le rappel des méthodes statistiques, ainsi qu’un traitement inédit de canonisation et de décomposition des énoncés. Après avoir présenté les différentes approches et réalisations existantes, nous détaillons l’architecture du système et présentons les résultats : environ 900 000 relations d’hyperonymie et près de 100 000 relations de synonymie, avec un taux de précision supérieur à 90% sur un échantillon aléatoire de 500 relations. Plus de 2 millions de prédications définitoires ont également été extraites.
pdf
abs
Dictionnaires morphologiques du français contemporain : présentation de Morfetik, éléments d’un modèle pour le TAL
Michel Mathieu-Colas
|
Emmanuel Cartier
|
Aude Grezka
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d’autres ressources du français : le GLAFF, le LEFF, Morphalou et Dicolecte. Nous étudions ensuite la couverture lexicale de ces dictionnaires sur trois corpus, le Wikipedia français, la version française de Wacky et les dix ans du Monde. Nous concluons par un programme de travail permettant de mettre à jour de façon continue la ressource lexicographique du point de vue des formes linguistiques, en connectant la ressource à un corpus continu.
2009
pdf
abs
Morfetik, ressource lexicale pour le TAL
Pierre-André Buvet
|
Emmanuel Cartier
|
Fabrice Issac
|
Yassine Madiouni
|
Michel Mathieu-Colas
|
Salah Mejri
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Le traitement automatique des langues exige un recensement lexical aussi rigoureux que possible. Dans ce but, nous avons développé un dictionnaire morphologique du français, conçu comme le point de départ d’un système modulaire (Morfetik) incluant un moteur de flexion, des interfaces de consultation et d’interrogation et des outils d’exploitation. Nous présentons dans cet article, après une brève description du dictionnaire de base (lexique des mots simples), quelques-uns des outils informatiques liés à cette ressource : un moteur de recherche des lemmes et des formes fléchies ; un moteur de flexion XML et MySQL ; des outils NLP permettant d’exploiter le dictionnaire ainsi généré ; nous présentons notamment un analyseur linguistique développé dans notre laboratoire. Nous comparons dans une dernière partie Morfetik avec d’autres ressources analogues du français : Morphalou, Lexique3 et le DELAF.
2007
pdf
abs
Dictionnaires électroniques et étiquetage syntactico-sémantique
Pierre-André Buvet
|
Emmanuel Cartier
|
Fabrice Issac
|
Salah Mejri
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons dans cet article le prototype d’un système d’étiquetage syntactico-sémantique des mots qui utilise comme principales ressources linguistiques différents dictionnaires du laboratoire Lexiques, Dictionnaires, Informatique (LDI). Dans un premier temps, nous mentionnons des travaux sur le même sujet. Dans un deuxième temps, nous faisons la présentation générale du système. Dans un troisième temps, nous exposons les principales caractéristiques des dictionnaires syntactico-sémantiques utilisés. Dans un quatrième temps, nous détaillons un exemple de traitement.
2003
pdf
Demonstration of the CROSSMARC System
Vangelis Karkaletsis
|
Constantine D. Spyropoulos
|
Dimitris Souflis
|
Claire Grover
|
Ben Hachey
|
Maria Teresa Pazienza
|
Michele Vindigni
|
Emmanuel Cartier
|
Jose Coch
Companion Volume of the Proceedings of HLT-NAACL 2003 - Demonstrations
2002
pdf
Multilingual Summarization by Integrating Linguistic Resources in the MLIS-MUSI Project
Alessandro Lenci
|
Roberto Bartolini
|
Nicoletta Calzolari
|
Ana Agua
|
Stephan Busemann
|
Emmanuel Cartier
|
Karine Chevreau
|
José Coch
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)