2006
pdf
abs
Linguistic features modeling based on Partial New Cache
Kamel Smaïli
|
Caroline Lavecchia
|
Jean-Paul Haton
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)
The agreement in gender and number is a critical problem in statistical language modeling. One of the main problems in the speech recognition of French language is the presence of misrecognized words due to the bad agreement (in gender and number) between words. Statistical language models do not treat this phenomenon directly. This paper focuses on how to handle the issue of agreements. We introduce an original model called Features-Cache (FC) to estimate the gender and the number of the word to predict. It is a dynamic variable-length Features-Cache for which the size is determined in accordance to syntagm delimitors. This model does not need any syntactic parsing, it is used as any other statistical language model. Several models have been carried out and the best one achieves an improvement of more than 8 points in terms of perplexity.
2004
pdf
A Complete Understanding Speech System Based on Semantic Concepts
Salma Jamoussi
|
Kamel Smaïli
|
Dominique Fohr
|
Jean-Paul Haton
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)
2003
pdf
abs
Nouvelle approche de la sélection de vocabulaire pour la détection de thème
Armelle Brun
|
Kamel Smaïli
|
Jean-Paul Haton
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
En reconnaissance de la parole, un des moyens d’améliorer les performances des systèmes est de passer par l’adaptation des modèles de langage. Une étape cruciale de ce processus consiste à détecter le thème du document traité et à adapter ensuite le modèle de langage. Dans cet article, nous proposons une nouvelle approche de création des vocabulaires utilisés pour la détection de thème. Cette dernière est fondée sur le développement de vocabulaires spécifiques et caractéristiques des différents thèmes. Nous montrons que cette approche permet non seulement d’améliorer les performances des méthodes, mais exploite également des vocabulaires de taille réduite. De plus, elle permet d’améliorer de façon très significative les performances de méthodes de détection lorsqu’elles sont combinées.
pdf
abs
Vers la compréhension automatique de la parole : extraction de concepts par réseaux bayésiens
Salma Jamoussi
|
Kamel Smaïli
|
Jean-Paul Haton
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
La compréhension automatique de la parole peut être considérée comme un problème d’association entre deux langages différents. En entrée, la requête exprimée en langage naturel et en sortie, juste avant l’étape d’interprétation, la même requête exprimée en terme de concepts. Un concept représente un sens bien déterminé. Il est défini par un ensemble de mots partageant les mêmes propriétés sémantiques. Dans cet article, nous proposons une méthode à base de réseau bayésien pour l’extraction automatique des concepts ainsi que trois approches différentes pour la représentation vectorielle des mots. Ces représentations aident un réseau bayésien à regrouper les mots, construisant ainsi la liste adéquate des concepts à partir d’un corpus d’apprentissage. Nous conclurons cet article par la description d’une étape de post-traitement au cours de laquelle, nous étiquetons nos requêtes et nous générons les commandes SQL appropriées validant ainsi, notre approche de compréhension.
2002
pdf
abs
WSIM : une méthode de détection de thème fondée sur la similarité entre mots
Armelle Brun
|
Kamel Smaïli
|
Jean-Paul Haton
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
L’adaptation des modèles de langage dans les systèmes de reconnaissance de la parole est un des enjeux importants de ces dernières années. Elle permet de poursuivre la reconnaissance en utilisant le modèle de langage adéquat : celui correspondant au thème identifié. Dans cet article nous proposons une méthode originale de détection de thème fondée sur des vocabulaires caractéristiques de thèmes et sur la similarité entre mots et thèmes. Cette méthode dépasse la méthode classique (TFIDF) de 14%, ce qui représente un gain important en terme d’identification. Nous montrons également l’intérêt de choisir un vocabulaire adéquat. Notre méthode de détermination des vocabulaires atteint des performances 3 fois supérieures à celles obtenues avec des vocabulaires construits sur la fréquence des mots.