Trouver et confondre les coupables : un processus sophistiqué de correction de lexique
Lionel Nicolas, Benoît Sagot, Miguel A. Molinero, Jacques Farré, Éric Villemonte De La Clergerie
Abstract
La couverture d’un analyseur syntaxique dépend avant tout de la grammaire et du lexique sur lequel il repose. Le développement d’un lexique complet et précis est une tâche ardue et de longue haleine, surtout lorsque le lexique atteint un certain niveau de qualité et de couverture. Dans cet article, nous présentons un processus capable de détecter automatiquement les entrées manquantes ou incomplètes d’un lexique, et de suggérer des corrections pour ces entrées. La détection se réalise au moyen de deux techniques reposant soit sur un modèle statistique, soit sur les informations fournies par un étiqueteur syntaxique. Les hypothèses de corrections pour les entrées lexicales détectées sont générées en étudiant les modifications qui permettent d’améliorer le taux d’analyse des phrases dans lesquelles ces entrées apparaissent. Le processus global met en oeuvre plusieurs techniques utilisant divers outils tels que des étiqueteurs et des analyseurs syntaxiques ou des classifieurs d’entropie. Son application au Lefff , un lexique morphologique et syntaxique à large couverture du français, nous a déjà permis de réaliser des améliorations notables.- Anthology ID:
- 2009.jeptalnrecital-long.23
- Volume:
- Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
- Month:
- June
- Year:
- 2009
- Address:
- Senlis, France
- Editors:
- Adeline Nazarenko, Thierry Poibeau
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 221–230
- Language:
- French
- URL:
- https://aclanthology.org/2009.jeptalnrecital-long.23
- DOI:
- Cite (ACL):
- Lionel Nicolas, Benoît Sagot, Miguel A. Molinero, Jacques Farré, and Éric Villemonte De La Clergerie. 2009. Trouver et confondre les coupables : un processus sophistiqué de correction de lexique. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 221–230, Senlis, France. ATALA.
- Cite (Informal):
- Trouver et confondre les coupables : un processus sophistiqué de correction de lexique (Nicolas et al., JEP/TALN/RECITAL 2009)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-4/2009.jeptalnrecital-long.23.pdf