Identification des problèmes d’annotation pour l’extraction de relations (Identification of annotation problem for the relation extraction)

Tsanta Randriatsitohaina, Thierry Hamon


Abstract
L’annotation d’un corpus est une tâche difficile et laborieuse, notamment sur des textes de spécialité comme les textes biomédicaux. Ainsi, dans un contexte comme l’extraction des interactions alimentmédicament (FDI), l’annotation du corpus POMELO a été réalisée par un seul annotateur et présente des risques d’erreur. Dans cet article, nous proposons d’identifier ces problèmes d’annotation en utilisant un corpus Silver Standard (CSS) que nous établissons à partir d’un vote majoritaire parmi les annotations proposées par des modèles entraînés sur un domaine similaire (interaction médicamentmédicament – DDI) et l’annotation manuelle à évaluer. Les résultats obtenus montrent que l’annotation dans POMELO est considérablement éloignée du CSS. L’analyse des erreurs permet d’en identifier les principales causes et de proposer des solutions pour corriger l’annotation existante.
Anthology ID:
2020.jeptalnrecital-taln.32
Volume:
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
Month:
6
Year:
2020
Address:
Nancy, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA et AFCP
Note:
Pages:
323–331
Language:
French
URL:
https://aclanthology.org/2020.jeptalnrecital-taln.32
DOI:
Bibkey:
Cite (ACL):
Tsanta Randriatsitohaina and Thierry Hamon. 2020. Identification des problèmes d’annotation pour l’extraction de relations (Identification of annotation problem for the relation extraction). In Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles, pages 323–331, Nancy, France. ATALA et AFCP.
Cite (Informal):
Identification des problèmes d’annotation pour l’extraction de relations (Identification of annotation problem for the relation extraction) (Randriatsitohaina & Hamon, JEP/TALN/RECITAL 2020)
Copy Citation:
PDF:
https://preview.aclanthology.org/update-css-js/2020.jeptalnrecital-taln.32.pdf