Enza Morale


2021

pdf bib
Corpus EN-Istex : un corpus d’articles scientifiques annoté manuellement en entités nommées (ISTEX-EN Corpus: a scientific paper corpus manually annotated in named entities)
Enza Morale | Denis Maurel | Jeanne Villaneau | Jean-Yves Antoine
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations

Nous présentons ici une nouvelle ressource libre : le corpus EN-ISTEX, un corpus de deux cents articles scientifiques annotés manuellement en entités nommées. Ces articles ont été extraits des deux éditeurs scientifiques les plus importants de la plateforme ISTEX. Tous les domaines sont concernés, même si les sciences dites dures, en particulier les sciences du vivant et de la santé, sont prépondérantes. Parmi ceux-ci vingt articles ont été multi-annotés afin de vérifier l’adéquation du guide d’annotation et la fiabilité de l’annotation. L’accord inter annotateurs sur ces vingt textes s’élève à 91 %.