Segmentation thématique par chaînes lexicales pondérées

Laurianne Sitbon, Patrice Bellot


Abstract
Cet article propose une méthode innovante et efficace pour segmenter un texte en parties thématiquement cohérentes, en utilisant des chaînes lexicales pondérées. Les chaînes lexicales sont construites en fonction de hiatus variables, ou bien sans hiatus, ou encore pondérées en fonction de la densité des occurrences du terme dans la chaîne. D’autre part, nous avons constaté que la prise en compte du repérage d’entités nommées dans la chaîne de traitement, du moins sans résolution des anaphores, n’améliore pas significativement les performances. Enfin, la qualité de la segmentation proposée est stable sur différentes thématiques, ce qui montre une indépendance par rapport au type de document.
Anthology ID:
2005.jeptalnrecital-court.21
Volume:
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2005
Address:
Dourdan, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
505–510
Language:
French
URL:
https://aclanthology.org/2005.jeptalnrecital-court.21
DOI:
Bibkey:
Cite (ACL):
Laurianne Sitbon and Patrice Bellot. 2005. Segmentation thématique par chaînes lexicales pondérées. In Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 505–510, Dourdan, France. ATALA.
Cite (Informal):
Segmentation thématique par chaînes lexicales pondérées (Sitbon & Bellot, JEP/TALN/RECITAL 2005)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingestion-script-update/2005.jeptalnrecital-court.21.pdf