2022
pdf
abs
Un jeu de données pour répondre à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances (ViQuAE, a Dataset for Knowledge-based Visual Question Answering about Named Entities)
Paul Lerner
|
Olivier Ferret
|
Camille Guinaudeau
|
Hervé Le Borgne
|
Romaric Besançon
|
Jose Moreno
|
Jesús Lovón-Melgarejo
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Dans le contexte général des traitements multimodaux, nous nous intéressons à la tâche de réponse à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances (KVQAE). Nous mettons à disposition ViQuAE, un nouveau jeu de données de 3 700 questions associées à des images, annoté à l’aide d’une méthode semi-automatique. C’est le premier jeu de données de KVQAE comprenant des types d’entités variés associé à une base de connaissances composée d’1,5 million d’articles Wikipédia, incluant textes et images. Nous proposons également un modèle de référence de KVQAE en deux étapes : recherche d’information puis extraction des réponses. Les résultats de nos expériences démontrent empiriquement la difficulté de la tâche et ouvrent la voie à une meilleure représentation multimodale des entités nommées.
2020
pdf
abs
Building a Multimodal Entity Linking Dataset From Tweets
Omar Adjali
|
Romaric Besançon
|
Olivier Ferret
|
Hervé Le Borgne
|
Brigitte Grau
Proceedings of the Twelfth Language Resources and Evaluation Conference
The task of Entity linking, which aims at associating an entity mention with a unique entity in a knowledge base (KB), is useful for advanced Information Extraction tasks such as relation extraction or event detection. Most of the studies that address this problem rely only on textual documents while an increasing number of sources are multimedia, in particular in the context of social media where messages are often illustrated with images. In this article, we address the Multimodal Entity Linking (MEL) task, and more particularly the problem of its evaluation. To this end, we propose a novel method to quasi-automatically build annotated datasets to evaluate methods on the MEL task. The method collects text and images to jointly build a corpus of tweets with ambiguous mentions along with a Twitter KB defining the entities. We release a new annotated dataset of Twitter posts associated with images. We study the key characteristics of the proposed dataset and evaluate the performance of several MEL approaches on it.
2016
pdf
abs
Utilisation des relations d’une base de connaissances pour la désambiguïsation d’entités nommées (Using the Relations of a Knowledge Base to Improve Entity Linking )
Romaric Besançon
|
Hani Daher
|
Olivier Ferret
|
Hervé Le Borgne
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)
L’identification des entités nommées dans un texte est une tâche essentielle des outils d’extraction d’information dans de nombreuses applications. Cette identification passe par la reconnaissance d’une mention d’entité dans le texte, ce qui a été très largement étudié, et par l’association des entités reconnues à des entités connues, présentes dans une base de connaissances. Cette association repose souvent sur une mesure de similarité entre le contexte textuel de la mention de l’entité et un contexte textuel de description des entités de la base de connaissances. Or, ce contexte de description n’est en général pas présent pour toutes les entités. Nous proposons d’exploiter les relations de la base de connaissances pour ajouter un indice de désambiguïsation pour ces entités. Nous évaluons notre travail sur des corpus d’évaluation standards en anglais issus de la tâche de désambiguïsation d’entités de la campagne TAC-KBP.