Identification thématique hiérarchique : Application aux forums de discussions

Brigitte Bigi, Kamel Smaïli


Abstract
Les modèles statistiques du langage ont pour but de donner une représentation statistique de la langue mais souffrent de nombreuses imperfections. Des travaux récents ont montré que ces modèles peuvent être améliorés s’ils peuvent bénéficier de la connaissance du thème traité, afin de s’y adapter. Le thème du document est alors obtenu par un mécanisme d’identification thématique, mais les thèmes ainsi traités sont souvent de granularité différente, c’est pourquoi il nous semble opportun qu’ils soient organisés dans une hiérarchie. Cette structuration des thèmes implique la mise en place de techniques spécifiques d’identification thématique. Cet article propose un modèle statistique à base d’unigrammes pour identifier automatiquement le thème d’un document parmi une arborescence prédéfinie de thèmes possibles. Nous présentons également un critère qui permet au modèle de donner un degré de fiabilité à la décision prise. L’ensemble des expérimentations a été réalisé sur des données extraites du groupe ’fr’ des forums de discussion.
Anthology ID:
2002.jeptalnrecital-long.9
Volume:
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2002
Address:
Nancy, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
116–125
Language:
French
URL:
https://aclanthology.org/2002.jeptalnrecital-long.9
DOI:
Bibkey:
Cite (ACL):
Brigitte Bigi and Kamel Smaïli. 2002. Identification thématique hiérarchique : Application aux forums de discussions. In Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 116–125, Nancy, France. ATALA.
Cite (Informal):
Identification thématique hiérarchique : Application aux forums de discussions (Bigi & Smaïli, JEP/TALN/RECITAL 2002)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingestion-script-update/2002.jeptalnrecital-long.9.pdf