Segmentation en super-chunks

Olivier Blanc, Matthieu Constant, Patrick Watrin


Abstract
Depuis l’analyseur développé par Harris à la fin des années 50, les unités polylexicales ont peu à peu été intégrées aux analyseurs syntaxiques. Cependant, pour la plupart, elles sont encore restreintes aux mots composés qui sont plus stables et moins nombreux. Toutefois, la langue est remplie d’expressions semi-figées qui forment également des unités sémantiques : les expressions adverbiales et les collocations. De même que pour les mots composés traditionnels, l’identification de ces structures limite la complexité combinatoire induite par l’ambiguïté lexicale. Dans cet article, nous détaillons une expérience qui intègre ces notions dans un processus de segmentation en super-chunks, préalable à l’analyse syntaxique. Nous montrons que notre chunker, développé pour le français, atteint une précision et un rappel de 92,9 % et 98,7 %, respectivement. Par ailleurs, les unités polylexicales réalisent 36,6 % des attachements internes aux constituants nominaux et prépositionnels.
Anthology ID:
2007.jeptalnrecital-poster.3
Volume:
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Month:
June
Year:
2007
Address:
Toulouse, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
33–42
Language:
French
URL:
https://aclanthology.org/2007.jeptalnrecital-poster.3
DOI:
Bibkey:
Cite (ACL):
Olivier Blanc, Matthieu Constant, and Patrick Watrin. 2007. Segmentation en super-chunks. In Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters, pages 33–42, Toulouse, France. ATALA.
Cite (Informal):
Segmentation en super-chunks (Blanc et al., JEP/TALN/RECITAL 2007)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingestion-script-update/2007.jeptalnrecital-poster.3.pdf