Amélioration de la segmentation automatique des textes grâce aux connaissances acquises par l’analyse sémantique latente

Yves Bestgen


Abstract
Choi, Wiemer-Hastings et Moore (2001) ont proposé d’employer l’analyse sémantique latente (ASL) pour extraire des connaissances sémantiques à partir de corpus afin d’améliorer l’efficacité d’un algorithme de segmentation des textes. En comparant l’efficacité du même algorithme selon qu’il prend en compte des connaissances sémantiques complémentaires ou non, ils ont pu montrer les bénéfices apportés par ces connaissances. Dans leurs expériences cependant, les connaissances sémantiques avaient été extraites d’un corpus qui contenait les textes à segmenter dans la phase de test. Si cette hyperspécificité du corpus d’apprentissage explique la plus grande partie de l’avantage observé, on peut se demander s’il est possible d’employer l’ASL pour extraire des connaissances sémantiques génériques pouvant être employées pour segmenter de nouveaux textes. Les deux expériences présentées ici montrent que la présence dans le corpus d’apprentissage du matériel de test a un effet important, mais également que les connaissances sémantiques génériques dérivées de grands corpus améliorent l’efficacité de la segmentation.
Anthology ID:
2005.jeptalnrecital-long.21
Volume:
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2005
Address:
Dourdan, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
201–210
Language:
French
URL:
https://aclanthology.org/2005.jeptalnrecital-long.21
DOI:
Bibkey:
Cite (ACL):
Yves Bestgen. 2005. Amélioration de la segmentation automatique des textes grâce aux connaissances acquises par l’analyse sémantique latente. In Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 201–210, Dourdan, France. ATALA.
Cite (Informal):
Amélioration de la segmentation automatique des textes grâce aux connaissances acquises par l’analyse sémantique latente (Bestgen, JEP/TALN/RECITAL 2005)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingestion-script-update/2005.jeptalnrecital-long.21.pdf