Abstract
Nous présentons une méthode automatique d’extraction d’information à partir d’un corpus mono-domaine de mauvaise qualité, sur lequel il est impossible d’appliquer les méthodes classiques de traitement de la langue naturelle. Cette approche se fonde sur la construction d’une ontologie semi-formelle (modélisant les informations contenues dans le corpus et les relations entre elles). Notre méthode se déroule en trois phases : 1) la normalisation du corpus, 2) la construction de l’ontologie, et 3) sa formalisation sous la forme d’une grammaire. L’extraction d’information à proprement parler exploite un étiquetage utilisant les règles définies par la grammaire. Nous illustrons notre démarche d’une application sur un corpus bancaire.- Anthology ID:
- 2002.jeptalnrecital-long.8
- Volume:
- Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
- Month:
- June
- Year:
- 2002
- Address:
- Nancy, France
- Editor:
- Jean-Marie Pierrel
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 105–115
- Language:
- French
- URL:
- https://aclanthology.org/2002.jeptalnrecital-long.8
- DOI:
- Cite (ACL):
- Fabrice Even and Chantal Enguehard. 2002. Extraction d’informations à partir de corpus dégradés. In Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 105–115, Nancy, France. ATALA.
- Cite (Informal):
- Extraction d’informations à partir de corpus dégradés (Even & Enguehard, JEP/TALN/RECITAL 2002)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-2/2002.jeptalnrecital-long.8.pdf