Génération automatique de motifs de détection d’entités nommées en utilisant des contenus encyclopédiques (Automatic generation of named entity detection patterns using encyclopedic contents)

Eric Charton, Michel Gagnon, Benoit Ozell


Abstract
Les encyclopédies numériques contiennent aujourd’hui de vastes inventaires de formes d’écritures pour des noms de personnes, de lieux, de produits ou d’organisation. Nous présentons un système hybride de détection d’entités nommées qui combine un classifieur à base de Champs Conditionnel Aléatoires avec un ensemble de motifs de détection extraits automatiquement d’un contenu encyclopédique. Nous proposons d’extraire depuis des éditions en plusieurs langues de l’encyclopédie Wikipédia de grandes quantités de formes d’écriture que nous utilisons en tant que motifs de détection des entités nommées. Nous décrivons une méthode qui nous assure de ne conserver dans cette ressources que des formes non ambiguës susceptibles de venir renforcer un système de détection d’entités nommées automatique. Nous procédons à un ensemble d’expériences qui nous permettent de comparer un système d’étiquetage à base de CRF avec un système utilisant exclusivement des motifs de détection. Puis nous fusionnons les résultats des deux systèmes et montrons qu’un gain de performances est obtenu grâce à cette proposition.
Anthology ID:
2011.jeptalnrecital-long.2
Volume:
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2011
Address:
Montpellier, France
Editors:
Mathieu Lafourcade, Violaine Prince
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
13–24
Language:
French
URL:
https://aclanthology.org/2011.jeptalnrecital-long.2
DOI:
Bibkey:
Cite (ACL):
Eric Charton, Michel Gagnon, and Benoit Ozell. 2011. Génération automatique de motifs de détection d’entités nommées en utilisant des contenus encyclopédiques (Automatic generation of named entity detection patterns using encyclopedic contents). In Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 13–24, Montpellier, France. ATALA.
Cite (Informal):
Génération automatique de motifs de détection d’entités nommées en utilisant des contenus encyclopédiques (Automatic generation of named entity detection patterns using encyclopedic contents) (Charton et al., JEP/TALN/RECITAL 2011)
Copy Citation:
PDF:
https://preview.aclanthology.org/emnlp-22-attachments/2011.jeptalnrecital-long.2.pdf