Adaptation de parsers statistiques lexicalisés pour le français : Une évaluation complète sur corpus arborés

Djamé Seddah; Marie Candito; Benoit Crabbé

Adaptation de parsers statistiques lexicalisés pour le français : Une évaluation complète sur corpus arborés

Djamé Seddah, Marie Candito, Benoît Crabbé

Abstract

Cet article présente les résultats d’une évaluation exhaustive des principaux analyseurs syntaxiques probabilistes dit “lexicalisés” initialement conçus pour l’anglais, adaptés pour le français et évalués sur le CORPUS ARBORÉ DU FRANÇAIS (Abeillé et al., 2003) et le MODIFIED FRENCH TREEBANK (Schluter & van Genabith, 2007). Confirmant les résultats de (Crabbé & Candito, 2008), nous montrons que les modèles lexicalisés, à travers les modèles de Charniak (Charniak, 2000), ceux de Collins (Collins, 1999) et le modèle des TIG Stochastiques (Chiang, 2000), présentent des performances moindres face à un analyseur PCFG à Annotation Latente (Petrov et al., 2006). De plus, nous montrons que le choix d’un jeu d’annotations issus de tel ou tel treebank oriente fortement les résultats d’évaluations tant en constituance qu’en dépendance non typée. Comparés à (Schluter & van Genabith, 2008; Arun & Keller, 2005), tous nos résultats sont state-of-the-art et infirment l’hypothèse d’une difficulté particulière qu’aurait le français en terme d’analyse syntaxique probabiliste et de sources de données.

Anthology ID:: 2009.jeptalnrecital-court.1
Volume:: Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:: June
Year:: 2009
Address:: Senlis, France
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
Note:
Pages:: 1–10
Language:: French
URL:: https://aclanthology.org/2009.jeptalnrecital-court.1
DOI:
Bibkey:
Cite (ACL):: Djamé Seddah, Marie Candito, and Benoît Crabbé. 2009. Adaptation de parsers statistiques lexicalisés pour le français : Une évaluation complète sur corpus arborés. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 1–10, Senlis, France. ATALA.
Cite (Informal):: Adaptation de parsers statistiques lexicalisés pour le français : Une évaluation complète sur corpus arborés (Seddah et al., JEP/TALN/RECITAL 2009)
Copy Citation:
PDF:: https://preview.aclanthology.org/auto-file-uploads/2009.jeptalnrecital-court.1.pdf

PDF Search