Quel indice pour mesurer l’efficacité en segmentation de textes?

Yves Bestgen


Abstract
L’évaluation de l’efficacité d’algorithmes de segmentation thématique est généralement effectuée en quantifiant le degré d’accord entre une segmentation hypothétique et une segmentation de référence. Les indices classiques de précision et de rappel étant peu adaptés à ce domaine, WindowDiff (Pevzner, Hearst, 2002) s’est imposé comme l’indice de référence. Une analyse de cet indice montre toutefois qu’il présente plusieurs limitations. L’objectif de ce rapport est d’évaluer un indice proposé par Bookstein, Kulyukin et Raita (2002), la distance de Hamming généralisée, qui est susceptible de remédier à celles-ci. Les analyses montrent que celui-ci conserve tous les avantages de WindowDiff sans les limitations. De plus, contrairement à WindowDiff, il présente une interprétation simple puisqu’il correspond à une vraie distance entre les deux segmentations à comparer.
Anthology ID:
2009.jeptalnrecital-long.18
Volume:
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2009
Address:
Senlis, France
Editors:
Adeline Nazarenko, Thierry Poibeau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
171–180
Language:
French
URL:
https://aclanthology.org/2009.jeptalnrecital-long.18
DOI:
Bibkey:
Cite (ACL):
Yves Bestgen. 2009. Quel indice pour mesurer l’efficacité en segmentation de textes?. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 171–180, Senlis, France. ATALA.
Cite (Informal):
Quel indice pour mesurer l’efficacité en segmentation de textes? (Bestgen, JEP/TALN/RECITAL 2009)
Copy Citation:
PDF:
https://preview.aclanthology.org/nschneid-patch-3/2009.jeptalnrecital-long.18.pdf