Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques

Stéphane Huet, Guillaume Gravier, Pascale Sébillot


Abstract
Nous présentons une méthode de segmentation de journaux radiophoniques en sujets, basée sur la prise en compte d’indices lexicaux, syntaxiques et acoustiques. Partant d’un modèle statistique existant de segmentation thématique, exploitant la notion de cohésion lexicale, nous étendons le formalisme pour y inclure des informations d’ordre syntaxique et acoustique. Les résultats expérimentaux montrent que le seul modèle de cohésion lexicale ne suffit pas pour le type de documents étudié en raison de la taille variable des segments et de l’absence d’un lien direct entre segment et thème. L’utilisation d’informations syntaxiques et acoustiques permet une amélioration substantielle de la segmentation obtenue.
Anthology ID:
2008.jeptalnrecital-long.5
Volume:
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2008
Address:
Avignon, France
Editors:
Frédéric Béchet, Jean-Francois Bonastre
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
41–50
Language:
French
URL:
https://aclanthology.org/2008.jeptalnrecital-long.5
DOI:
Bibkey:
Cite (ACL):
Stéphane Huet, Guillaume Gravier, and Pascale Sébillot. 2008. Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques. In Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 41–50, Avignon, France. ATALA.
Cite (Informal):
Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques (Huet et al., JEP/TALN/RECITAL 2008)
Copy Citation:
PDF:
https://preview.aclanthology.org/emnlp-22-attachments/2008.jeptalnrecital-long.5.pdf