Abstract
On utilise souvent des ressources lexicales externes pour améliorer les performances des systèmes d’étiquetage d’entités nommées. Les contenus de ces ressources lexicales peuvent être variés : liste de noms propres, de lieux, de marques. On note cependant que la disponibilité de corpus encyclopédiques exhaustifs et ouverts de grande taille tels que Worldnet ou Wikipedia, a fait émerger de nombreuses propositions spécifiques d’exploitation de ces contenus par des systèmes d’étiquetage. Un problème demeure néanmoins ouvert avec ces ressources : celui de l’adaptation de leur taxonomie interne, complexe et composée de dizaines de milliers catégories, aux exigences particulières de l’étiquetage des entités nommées. Pour ces dernières, au plus de quelques centaines de classes sémantiques sont requises. Dans cet article nous explorons cette difficulté et proposons un système complet de transformation d’un arbre taxonomique encyclopédique en une système à classe sémantiques adapté à l’étiquetage d’entités nommées.- Anthology ID:
- 2009.jeptalnrecital-long.7
- Volume:
- Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
- Month:
- June
- Year:
- 2009
- Address:
- Senlis, France
- Editors:
- Adeline Nazarenko, Thierry Poibeau
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 61–70
- Language:
- French
- URL:
- https://aclanthology.org/2009.jeptalnrecital-long.7
- DOI:
- Cite (ACL):
- Eric Charton and Juan-Manuel Torres-Moreno. 2009. Classification d’un contenu encyclopédique en vue d’un étiquetage par entités nommées. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 61–70, Senlis, France. ATALA.
- Cite (Informal):
- Classification d’un contenu encyclopédique en vue d’un étiquetage par entités nommées (Charton & Torres-Moreno, JEP/TALN/RECITAL 2009)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-3/2009.jeptalnrecital-long.7.pdf