Extraction de noms propres à partir de textes variés: problématique et enjeux

Leila Kosseim, Thierry Poibeau


Abstract
Cet article porte sur l’identification de noms propres à partir de textes écrits. Les stratégies à base de règles développées pour des textes de type journalistique se révèlent généralement insuffisantes pour des corpus composés de textes ne répondant pas à des critères rédactionnels stricts. Après une brève revue des travaux effectués sur des corpus de textes de nature journalistique, nous présentons la problématique de l’analyse de textes variés en nous basant sur deux corpus composés de courriers électroniques et de transcriptions manuelles de conversations téléphoniques. Une fois les sources d’erreurs présentées, nous décrivons l’approche utilisée pour adapter un système d’extraction de noms propres développé pour des textes journalistiques à l’analyse de messages électroniques.
Anthology ID:
2001.jeptalnrecital-poster.7
Volume:
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Month:
July
Year:
2001
Address:
Tours, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
362–368
Language:
French
URL:
https://aclanthology.org/2001.jeptalnrecital-poster.7
DOI:
Bibkey:
Cite (ACL):
Leila Kosseim and Thierry Poibeau. 2001. Extraction de noms propres à partir de textes variés: problématique et enjeux. In Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Posters, pages 362–368, Tours, France. ATALA.
Cite (Informal):
Extraction de noms propres à partir de textes variés: problématique et enjeux (Kosseim & Poibeau, JEP/TALN/RECITAL 2001)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingestion-script-update/2001.jeptalnrecital-poster.7.pdf