Segmentation multiple d’un flux de données textuelles pour la modélisation statistique du langage
Sopheap Seng, Laurent Besacier, Brigitte Bigi, Eric Castelli
Abstract
Dans cet article, nous traitons du problème de la modélisation statistique du langage pour les langues peu dotées et sans segmentation entre les mots. Tandis que le manque de données textuelles a un impact sur la performance des modèles, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Pour exploiter au mieux les données textuelles, nous proposons une méthode qui effectue des segmentations multiples sur le corpus d’apprentissage au lieu d’une segmentation unique. Cette méthode basée sur les automates d’état finis permet de retrouver les n-grammes non trouvés par la segmentation unique et de générer des nouveaux n-grammes pour l’apprentissage de modèle du langage. L’application de cette approche pour l’apprentissage des modèles de langage pour les systèmes de reconnaissance automatique de la parole en langue khmère et vietnamienne s’est montrée plus performante que la méthode par segmentation unique, à base de règles.- Anthology ID:
- 2009.jeptalnrecital-court.37
- Volume:
- Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
- Month:
- June
- Year:
- 2009
- Address:
- Senlis, France
- Editors:
- Adeline Nazarenko, Thierry Poibeau
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 337–346
- Language:
- French
- URL:
- https://aclanthology.org/2009.jeptalnrecital-court.37
- DOI:
- Cite (ACL):
- Sopheap Seng, Laurent Besacier, Brigitte Bigi, and Eric Castelli. 2009. Segmentation multiple d’un flux de données textuelles pour la modélisation statistique du langage. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 337–346, Senlis, France. ATALA.
- Cite (Informal):
- Segmentation multiple d’un flux de données textuelles pour la modélisation statistique du langage (Seng et al., JEP/TALN/RECITAL 2009)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-2/2009.jeptalnrecital-court.37.pdf