pdf
bib
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Thibault Mondary
|
Aurélien Bossard
|
Thierry Hamon
pdf
bib
abs
Apprentissage automatique et Co-training
Pierre Gotab
Dans le domaine de la classification supervisée et semi-supervisée, cet article présente un contexte favorable à l’application de méthodes statistiques de classification. Il montre l’application d’une stratégie alternative dans le cas où les données d’apprentissage sont insuffisantes, mais où de nombreuses données non étiquetées sont à notre disposition : le cotraining multi-classifieurs. Les deux vues indépendantes habituelles du co-training sont remplacées par deux classifieurs basés sur des techniques de classification différentes : icsiboost sur le boosting et LIBLINEAR sur de la régression logistique.
pdf
bib
abs
Comparing Speech Recognizers Derived from Mono- and Multilingual Grammars
Marianne Santaholma
This paper examines the performance of multilingual parameterized grammar rules on speech recognition. We present a performance comparison of two different types of Japanese and English grammar-based speech recognizers. One system is derived from monolingual grammar rules and the other from multilingual parameterized grammar rules. The latter one uses hence the same grammar rules for creation of the language models for these two different languages. We carried out experiments on speech recognition of limited domain dialog application. These experiments show that the language models derived from multilingual parameterized grammar rules (1) perform equally well on both tested languages, on English and Japanese, and (2) that the performance is comparable with the recognizers derived from monolingual grammars that were explicitly developed for these languages. This suggests that the sharing grammar resources between different languages could be one solution for more efficient development of rule-based speech recognizers.
pdf
abs
Détection de la cohésion lexicale par voisinage distributionnel : application à la segmentation thématique
Clémentine Adam
|
François Morlane-Hondère
Cette étude s’insère dans le projet VOILADIS (VOIsinage Lexical pour l’Analyse du DIScours), qui a pour objectif d’exploiter des marques de cohésion lexicale pour mettre au jour des phénomènes discursifs. Notre propos est de montrer la pertinence d’une ressource, construite par l’analyse distributionnelle automatique d’un corpus, pour repérer les liens lexicaux dans les textes. Nous désignons par voisins les mots rapprochés par l’analyse distributionnelle sur la base des contextes syntaxiques qu’ils partagent au sein du corpus. Pour évaluer la pertinence de la ressource ainsi créée, nous abordons le problème du repérage des liens lexicaux à travers une application de TAL, la segmentation thématique. Nous discutons l’importance, pour cette tâche, de la ressource lexicale mobilixsée ; puis nous présentons la base de voisins distributionnels que nous utilisons ; enfin, nous montrons qu’elle permet, dans un système de segmentation thématique inspiré de (Hearst, 1997), des performances supérieures à celles obtenues avec une ressource traditionnelle.
pdf
abs
Extraction de lexique dans un corpus spécialisé en chinois contemporain
Gaël Patin
La constitution de ressources lexicales est une tâche cruciale pour l’amélioration des performances des systèmes de recherche d’information. Cet article présente une méthode d’extraction d’unités lexicales en chinois contemporain dans un corpus spécialisé non-annoté et non-segmenté. Cette méthode se base sur une construction incrémentale de l’unité lexicale orientée par une mesure d’association. Elle se distingue des travaux précédents par une approche linguistique non-supervisée assistée par les statistiques. Les résultats de l’extraction, évalués sur un échantillon aléatoire du corpus de travail, sont honorables avec des scores de précision et de rappel respectivement de 52,6 % et 53,7 %.
pdf
abs
Induction de sens de mots à partir de multiples espaces sémantiques
Claire Mouton
Les mots sont souvent porteurs de plusieurs sens. Pour traiter l’information correctement, un ordinateur doit être capable de décider quel sens d’un mot est employé à chacune de ses occurrences. Ce problème non parfaitement résolu a généré beaucoup de travaux sur la désambiguïsation du sens des mots (Word Sense Disambiguation) et dans la génération d’espaces sémantiques dont un des buts est de distinguer ces différents sens. Nous nous inspirons ici de deux méthodes existantes de détection automatique des différents usages et/ou sens des mots, pour les appliquer à des espaces sémantiques issus d’une analyse syntaxique effectuée sur un très grand nombre de pages web. Les adaptations et résultats présentés dans cet article se distinguent par le fait d’utiliser non plus une seule représentation mais une combinaison de multiples espaces de forte dimensionnalité. Ces multiples représentations étant en compétition entre elles, elles participent chacune par vote à l’induction des sens lors de la phase de clustering.
pdf
abs
Méta-moteur de traduction automatique : proposition d’une métrique pour le classement de traductions
Marion Potet
Compte tenu de l’essor du Web et du développement des documents multilingues, le besoin de traductions “à la volée” est devenu une évidence. Cet article présente un système qui propose, pour une phrase donnée, non pas une unique traduction, mais une liste de N hypothèses de traductions en faisant appel à plusieurs moteurs de traduction pré-existants. Neufs moteurs de traduction automatique gratuits et disponibles sur leWeb ont été sélectionnés pour soumettre un texte à traduire et réceptionner sa traduction. Les traductions obtenues sont classées selon une métrique reposant sur l’utilisation d’un modèle de langage. Les expériences conduites ont montré que ce méta-moteur de traduction se révèle plus pertinent que l’utilisation d’un seul système de traduction.
pdf
abs
Modèles statistiques pour l’estimation automatique de la difficulté de textes de FLE
Thomas François
La lecture constitue l’une des tâches essentielles dans l’apprentissage d’une langue étrangère. Toutefois, la découverte d’un texte portant sur un sujet précis et qui soit adapté au niveau de chaque apprenant est consommatrice de temps et pourrait être automatisée. Des expériences montrent que, pour l’anglais, l’utilisation de classifieurs statistiques permet d’estimer automatiquement la difficulté d’un texte. Dans cet article, nous proposons une méthodologie originale comparant, pour le français langue étrangère (FLE), diverses techniques de classification (la régression logistique, le bagging et le boosting) sur deux corpus d’entraînement. Il ressort de cette analyse comparative une légère supériorité de la régression logistique multinomiale.
pdf
Modélisation des mouvements explicites dans les ACG avec le produit dépendant
Florent Pompigne
pdf
abs
Normalisation des entités nommées : pour une approche mixte et orientée utilisateurs
Vanessa Andréani
La normalisation intervient dans de nombreux champs du traitement de l’information. Elle permet d’optimiser les performances des applications, telles que la recherche ou l’extraction d’information, et de rendre plus fiable la constitution de ressources langagières. La normalisation consiste à ramener toutes les variantes d’un même terme ou d’une entité nommée à une forme standard, et permet de limiter l’impact de la variation linguistique. Notre travail porte sur la normalisation des entités nommées, pour laquelle nous avons mis en place un système complexe mêlant plusieurs approches. Nous en présentons ici une des composantes : une méthode endogène de délimitation et de validation de l’entité nommée normée, adaptée à des données multilingues. De plus, nous plaçons l’utilisateur au centre du processus de normalisation, dans l’objectif d’obtenir des données parfaitement fiables et adaptées à ses besoins.
pdf
abs
Combinaison de contenus encyclopédiques multilingues pour une reconnaissance d’entités nommées en contexte
Eric Charton
Dans cet article, nous présentons une méthode de transformation de Wikipédia en ressource d’information externe pour détecter et désambiguïser des entités nommées, en milieu ouvert et sans apprentissage spécifique. Nous expliquons comment nous construisons notre système, puis nous utilisons cinq éditions linguistiques de Wikipédia afin d’enrichir son lexique. Pour finir nous réalisons une évaluation et comparons les performances du système avec et sans compléments lexicaux issus des informations inter-linguistiques, sur une tâche d’extraction d’entités nommées appliquée à un corpus d’articles journalistiques.
pdf
abs
La distance intertextuelle pour la classification de textes en langue arabe
Rami Ayadi
|
Walid Jaoudi
Nos travaux de recherche s’intéressent à l’application de la théorie de la distance intertextuelle sur la langue arabe en tant qu’outil pour la classification de textes. Cette théorie traite de la classification de textes selon des critères de statistique lexicale, se basant sur la notion de connexion lexicale. Notre objectif est d’intégrer cette théorie en tant qu’outil de classification de textes en langue arabe. Ceci nécessite l’intégration d’une métrique pour la classification de textes au niveau d’une base de corpus lemmatisés étiquetés et identifiés comme étant des références d’époques, de genre, de thèmes littéraires et d’auteurs et ceci afin de permettre la classification de textes anonymes.
pdf
abs
Techniques argumentatives pour aider à générer des descriptions orientées d’un événement
Sara Boutouhami
Les moyens et les formes stratégiques permettant la génération de descriptions textuelles argumentées d’une même réalité effective sont nombreux. La plupart des définitions proposées de l’argumentation partagent l’idée qu’argumenter c’est fournir les éléments en faveur d’une conclusion donnée. Or dans notre tâche qui consiste à générer des descriptions argumentées pour des accidents de la route, nous ne disposons pas uniquement d’éléments en faveur de la conclusion souhaitée mais aussi d’éléments qui vont à l’encontre de cette dernière et dont la présence est parfois obligatoire pour la compréhension de ces descriptions. Afin de remédier à ce problème, nous proposons des techniques de génération de descriptions argumentées qui présentent au mieux les éléments indésirables à l’aide de stratégies argumentatives.