Segmentation multiple d’un flux de données textuelles pour la modélisation statistique du langage

Sopheap Seng, Laurent Besacier, Brigitte Bigi, Eric Castelli


Abstract
Dans cet article, nous traitons du problème de la modélisation statistique du langage pour les langues peu dotées et sans segmentation entre les mots. Tandis que le manque de données textuelles a un impact sur la performance des modèles, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Pour exploiter au mieux les données textuelles, nous proposons une méthode qui effectue des segmentations multiples sur le corpus d’apprentissage au lieu d’une segmentation unique. Cette méthode basée sur les automates d’état finis permet de retrouver les n-grammes non trouvés par la segmentation unique et de générer des nouveaux n-grammes pour l’apprentissage de modèle du langage. L’application de cette approche pour l’apprentissage des modèles de langage pour les systèmes de reconnaissance automatique de la parole en langue khmère et vietnamienne s’est montrée plus performante que la méthode par segmentation unique, à base de règles.
Anthology ID:
2009.jeptalnrecital-court.37
Volume:
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2009
Address:
Senlis, France
Editors:
Adeline Nazarenko, Thierry Poibeau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
337–346
Language:
French
URL:
https://aclanthology.org/2009.jeptalnrecital-court.37
DOI:
Bibkey:
Cite (ACL):
Sopheap Seng, Laurent Besacier, Brigitte Bigi, and Eric Castelli. 2009. Segmentation multiple d’un flux de données textuelles pour la modélisation statistique du langage. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 337–346, Senlis, France. ATALA.
Cite (Informal):
Segmentation multiple d’un flux de données textuelles pour la modélisation statistique du langage (Seng et al., JEP/TALN/RECITAL 2009)
Copy Citation:
PDF:
https://preview.aclanthology.org/nschneid-patch-4/2009.jeptalnrecital-court.37.pdf