Apprentissage non supervisé de familles morphologiques par classification ascendante hiérarchique

Delphine Bernhard


Abstract
Cet article présente un système d’acquisition de familles morphologiques qui procède par apprentissage non supervisé à partir de listes de mots extraites de corpus de textes. L’approche consiste à former des familles par groupements successifs, similairement aux méthodes de classification ascendante hiérarchique. Les critères de regroupement reposent sur la similarité graphique des mots ainsi que sur des listes de préfixes et de paires de suffixes acquises automatiquement à partir des corpus traités. Les résultats obtenus pour des corpus de textes de spécialité en français et en anglais sont évalués à l’aide de la base CELEX et de listes de référence construites manuellement. L’évaluation démontre les bonnes performances du système, indépendamment de la langue, et ce malgré la technicité et la complexité morphologique du vocabulaire traité.
Anthology ID:
2007.jeptalnrecital-long.34
Volume:
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2007
Address:
Toulouse, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
345–354
Language:
French
URL:
https://aclanthology.org/2007.jeptalnrecital-long.34
DOI:
Bibkey:
Cite (ACL):
Delphine Bernhard. 2007. Apprentissage non supervisé de familles morphologiques par classification ascendante hiérarchique. In Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 345–354, Toulouse, France. ATALA.
Cite (Informal):
Apprentissage non supervisé de familles morphologiques par classification ascendante hiérarchique (Bernhard, JEP/TALN/RECITAL 2007)
Copy Citation:
PDF:
https://preview.aclanthology.org/update-css-js/2007.jeptalnrecital-long.34.pdf