Oriane Matte-Tailliez


2005

pdf bib
Induction de règles de correction pour l’étiquetage morphosyntaxique de la littérature de biologie en utilisant l’apprentissage actif
Ahmed Amrani | Yves Kodratoff | Oriane Matte-Tailliez
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans le contexte de l’étiquetage morphosyntaxique des corpus de spécialité, nous proposons une approche inductive pour réduire les erreurs les plus difficiles et qui persistent après étiquetage par le système de Brill. Nous avons appliqué notre système sur deux types de confusions. La première confusion concerne un mot qui peut avoir les étiquettes ‘verbe au participe passé’, ‘verbe au passé’ ou ‘adjectif’. La deuxième confusion se produit entre un nom commun au pluriel et un verbe au présent, à la 3ème personne du singulier. A l’aide d’interface conviviale, l’expert corrige l’étiquette du mot ambigu. A partir des exemples annotés, nous induisons des règles de correction. Afin de réduire le coût d’annotation, nous avons utilisé l’apprentissage actif. La validation expérimentale a montré une amélioration de la précision de l’étiquetage. De plus, à partir de l’annotation du tiers du nombre d’exemples, le niveau de précision réalisé est équivalent à celui obtenu en annotant tous les exemples.