pdf
bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Béatrice Daille
|
Emmanuel Morin
pdf
bib
abs
Generation of natural responses through syntactic patterns
Glenda B. Anaya
|
Leila Kosseim
The goal of Question-Answering (QA) systems is to find short and factual answers to opendomain questions by searching a large collection of documents. The subject of this research is to formulate complete and natural answer-sentences to questions, given the short answer. The answer-sentences are meant to be self-sufficient; that is, they should contain enough context to be understood without needing the original question. Generating such sentences is important in question-answering as they can be used to enhance existing QA systems to provide answers to the user in a more natural way and to provide a pattern to actually extract the answer from the document collection.
pdf
bib
abs
Une métagrammaire pour les noms prédicatifs du français
Sébastien Barrier
|
Nicolas Barrier
La grammaire FTAG du français a vu ces dernières années ses données s’accroître très fortement. D’abord écrits manuellement, les arbres qui la composent, ont ensuite été générés semi-automatiquement grâce à une Métagrammaire, développée tout spécialement. Après la description des verbes en 1999, puis celle des adjectifs en 2001-2002, c’est maintenant au tour des verbes supports et des noms prédicatifs de venir enrichir les descriptions syntaxiques de la grammaire. Après un rappel linguistique et technique des notions de verbe support et de métagrammaire, cet article présente les choix qui ont été entrepris en vue de la description de ces nouvelles données.
pdf
abs
Remarques et perspectives sur les langages de prégroupe d’ordre 1/2
Denis Béchet
|
Annie Foret
Cet article traite de l’acquisition automatique des grammaires de Lambek, utilisées pour la modélisation syntaxique des langues. Récemment, des algorithmes ont été proposés dans le modèle d’apprentissage de Gold, pour certaines classes de grammaires catégorielles. En revenche, les grammaires de Lambek rigides ou k-valuées ne sont pas apprenables à partir des chaînes. Nous nous intéressons ici au cas des grammaires de prégroupe. Nous montrons que la classe des grammaires de prégroupe n’est pas apprenable à partir des chaînes, même si on limite fortement l’ordre des types (ordre 1/2) ; notre preuve revient à construire un point limite pour cette classe.
pdf
abs
Indexation discursive pour la navigation intradocumentaire : cadres temporels et spatiaux dans l’information géographique
Frédérik Bilhaut
|
Lydia-Mai Ho-Dac
|
Andrée Borillo
|
Thierry Charnois
|
Patrice Enjalbert
|
Anne Le Draoulec
|
Yann Mathet
|
Hélène Miguet
|
Marie-Paule Péry-Woodley
|
Laure Sarda
Cet article concerne la structuration automatique de documents par des méthodes linguistiques. De telles procédures sont rendues nécessaires par les nouvelles tâches de recherche d’information intradocumentaires (systèmes de questions-réponses, navigation sélective dans des documents...). Nous développons une méthode exploitant la théorie de l’encadrement du discours de Charolles, avec une application visée en recherche d’information dans les documents géographiques - d’où l’intérêt tout particulier porté aux cadres spatiaux et temporels. Nous décrivons une implémentation de la méthode de délimitation de ces cadres et son exploitation pour une tâche d’indexation intratextuelle croisant les critères spatiaux et temporels avec des critères thématiques.
pdf
abs
Vers une théorie cognitive de la langue basée sur les contraintes
Philippe Blache
Cet article fournit des éléments d’explication pour la description des relations entre les différents domaines de l’analyse linguistique. Il propose une architecture générale en vue d’une théorie formée de plusieurs niveaux : d’un côté les grammaires de chacun des domaines et de l’autre des relations spécifiant les interactions entre ces domaines. Dans cette approche, chacun des domaines est porteur d’une partie de l’information, celle-ci résultant également de l’interaction entre les domaines.
pdf
abs
Identification automatique des valeurs temporelles dans les textes
Marie Chagnoux
|
Slim Ben Hazez
|
Jean-Pierre Desclés
Cet article présente une application qui associe un certain nombre de valeurs sémantiques à des segments textuels en vue de proposer un traitement automatique de la temporalité dans les textes. Il s’agit d’automatiser une analyse sémantique de surface à l’aide de règles heuristiques d’exploration contextuelle et d’une base organisée de marqueurs linguistiques.
pdf
abs
Structuration automatique de preuves mathématiques : de la logique à la rhétorique
Adil El Ghali
|
Laurent Roussarie
Nous présentons dans ses grandes lignes un modèle de structuration de documents pour la génération automatique de preuves mathématiques. Le modèle prend en entrée des sorties d’un prouveur automatique et vise à produire des textes dont le style s’approche le plus possible des démonstrations rédigées par des humains. Cela implique la mise au point d’une stratégie de planification de document capable de s’écarter de la structure purement logique de la preuve. La solution que nous proposons consiste à intégrer de manière simple des informations de type intentionnel afin d’enrichir la structure rhétorique finale du texte.
pdf
abs
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes
Chantal Enguehard
La reconnaissance de termes dans les textes intervient dans de nombreux domaines du Traitement Automatique des Langues Naturelles, qu’il s’agisse d’indexation automatique, de traduction, ou d’extraction de connaissances. Nous présentons une méthodologie d’évaluation de Systèmes de Reconnaissance de Termes (SRT) qui vise à minimiser le temps d’expertise des spécialistes en faisant coopérer des SRT. La méthodologie est mise en oeuvre sur des textes en anglais dans le domaine de la chimie des métaux et à l’aide de deux SRT : FASTR et SYRETE. Le banc de test construit selon cette méthodologie a permis de valider les SRT et d’évaluer leurs performances en termes de rappel et de précision.
pdf
abs
Filtrage thématique d’un réseau de collocations
Olivier Ferret
Les réseaux lexicaux de type WordNet présentent une absence de relations de nature thématique, relations pourtant très utiles dans des tâches telles que le résumé automatique ou l’extraction d’information. Dans cet article, nous proposons une méthode visant à construire automatiquement à partir d’un large corpus un réseau lexical dont les relations sont préférentiellement thématiques. En l’absence d’utilisation de ressources de type dictionnaire, cette méthode se fonde sur un principe d’auto-amorçage : un réseau de collocations est d’abord construit à partir d’un corpus puis filtré sur la base des mots du corpus que le réseau initial a permis de sélectionner. Nous montrons au travers d’une évaluation portant sur la segmentation thématique que le réseau final, bien que de taille bien inférieure au réseau initial, permet d’obtenir les mêmes performances que celui-ci pour cette tâche.
pdf
abs
Une méthode non supervisée d’apprentissage sur le Web pour la résolution d’ambiguïtés structurelles liées au rattachement prépositionnel
Núria Gala Pavia
Dans cet article, nous proposons une méthode non supervisée d’apprentissage qui permet d’améliorer la désambiguïsation du rattachement prépositionnel dans le cadre d’un analyseur robuste à base de règles pour le français. Les rattachements ambigus d’une première analyse sont transformés en requêtes sur leWeb dans le but de créer un grand corpus qui sera analysé et d’où seront extraites automatiquement des informations lexicales et statistiques sur les rattachements. Ces informations seront ensuite utilisées dans une deuxième analyse pour lever les ambiguïtés des rattachements. L’avantage d’une telle méthode est la prise en compte de cooccurrences syntaxiques et non pas des cooccurrences purement textuelles. En effet, les mesures statistiques (poids) sont associées à des mots apparaissant initialement dans une même relation de dépendance, c’est-à-dire, des attachements produits par le parseur lors d’une première analyse.
pdf
abs
Bases de connaissances pour asseoir la crédibilité des réponses d’un système de Q/R
Laurent Gillard
|
Patrice Bellot
|
Marc El-Bèze
Cet article présente un prototype de Question/Réponse (Q/R) impliquant un ensemble de bases de connaissances (BC) dont l’objectif est d’apporter un crédit supplémentaire aux réponses candidates trouvées. Ces BC et leur influence sur la stratégie d’ordonnancement mise en uvre sont décrites dans le cadre de la participation du système à la campagne Q/R de TREC-2002.
pdf
abs
Un logiciel pour la mise au point de grammaires pour le filtrage d’information en arabe (cas de l’information citationnelle)
André Jaccarini
|
Mourad Ghassan
|
Christian Gaubert
|
Brahim Djioua
Nous présentons dans ce travail un logiciel de mise au point de grammaires pour le traitement morpho-syntaxique de l’arabe et l’établissement de grammaires pour le filtrage et l’extraction d’information en arabe. Ce logiciel est fondé sur le principe des automates. L’analyse morpho-syntaxique de l’arabe est réalisé sans le recours au lexique.
pdf
abs
Using decision trees to learn lexical information in a linguistics-based NLP system
Marisa Jiménez
|
Martine Pettenaro
This paper describes the use of decision trees to learn lexical information for the enrichment of our natural language processing (NLP) system. Our approach to lexical learning differs from other approaches in the field in that our machine learning techniques exploit a deep knowledge understanding system. After the introduction we present the overall architecture of our lexical learning module. In the following sections we present a showcase of lexical learning using decision trees: we learn verbs that take a human subject in Spanish and French.
pdf
abs
MDA-XML : une expérience de rédaction contrôlée multilingue basée sur XML
Guy Lapalme
|
Caroline Brun
|
Marc Dymetman
Nous décrivons dans cet article l’implantation d’un système de rédaction contrôlée multilingue dans un environnement XML. Avec ce système, un auteur rédige interactivement un texte se conformant à des règles de bonne formation aux niveaux du contenu sémantique et de la réalisation linguistique décrites par un schéma XML. Nous discutons les avantages de cette approche ainsi que les difficultés rencontrées lors du développement de ce système. Nous concluons avec un exemple d’application à une classe de documents pharmaceutiques.
pdf
abs
Apport d’un modèle de langage statistique pour la reconnaissance de l’écriture manuscrite en ligne
Freddy Perraud
|
Emmanuel Morin
|
Christian Viard-Gaudin
|
Pierre-Michel Lallican
Dans ce travail, nous étudions l’apport d’un modèle de langage pour améliorer les performances des systèmes de reconnaissance de l’écriture manuscrite en-ligne. Pour cela, nous avons exploré des modèles basés sur des approches statistiques construits par apprentissage sur des corpus écrits. Deux types de modèles ont été étudiés : les modèles n-grammes et ceux de type n-classes. En vue de l’intégration dans un système de faible capacité (engin nomade), un modèle n-classe combinant critères syntaxiques et contextuels a été défini, il a permis d’obtenir des résultats surpassant ceux donnés avec un modèle beaucoup plus lourd de type n-gramme. Les résultats présentés ici montrent qu’il est possible de prendre en compte les spécificités d’un langage en vue de reconnaître l’écriture manuscrite avec des modèles de taille tout à fait raisonnable.
pdf
abs
Prototypage rapide et évaluation de modèles de dialogue finalisés
Martin Rajman
|
Andréa Rajman
|
Florian Seydoux
|
Alex Trutnev
L’objectif de cette contribution est de présenter l’intégration de la notion d’évaluation dans la méthodologie de prototypage rapide de modèles de dialogue développée et mise en oeuvre dans le cadre du projet InfoVox. L’idée centrale de cette méthodologie est de dériver un modèle de dialogue opérationnel directement à partir du modèle de la tâche à laquelle il est associé. L’intégration systématique de différents aspects de l’évaluation dans le processus de prototypage est alors utile afin d’identifier, dès la phase de conception, les qualités et défauts de l’interface. Toutes les conclusions présentées seront illustrées par des résultats concrets obtenus au cours d’expériences réalisées dans le cadre du projet InfoVox.
pdf
abs
Text Tokenization for Knowledge-free Automatic Extraction of Lexical Similarities
Aristomenis Thanopoulos
|
Nikos Fakotakis
|
George Kokkinakis
Previous studies on automatic extraction of lexical similarities have considered as semantic unit of text the word. However, the theory of contextual lexical semantics implies that larger segments of text, namely non-compositional multiwords, are more appropriate for this role. We experimentally tested the applicability of this notion applying automatic collocation extraction to identify and merge such multiwords prior to the similarity estimation process. Employing an automatic WordNet-based comparative evaluation scheme along with a manual evaluation procedure, we ascertain improvement of the extracted similarity relations.
pdf
abs
Le traitement automatique de la langue contre les erreurs judiciaires : une méthodologie d’analyse systématique des textes d’un dossier d’instruction
Yannick Toussaint
Cet article présente une méthode d’analyse systématique et scientifique des documents constituant un dossier d’instruction. L’objectif de cette approche est de pouvoir donner au juge d’instruction de nouveaux moyens pour évaluer la cohérence, les incohérences, la stabilité ou les variations dans les témoignages. Cela doit lui permettre de définir des pistes pour mener de nouvelles investigations. Nous décrivons les travaux que nous avons réalisés sur un dossier réel puis nous proposons une méthode d’analyse des résultats.
pdf
abs
Le contexte au service de la correction des graphies fautives arabes
Chiraz Ben Othmane Zribi
|
Mohamed Ben Ahmed
Les mots arabes sont lexicalement beaucoup plus proches les uns des autres que les mots français et anglais. Cette proximité a pour effet un grand nombre de propositions à la correction d’une forme erronée arabe. Nous proposons dans cet article une méthode qui prend en considération le contexte de l’erreur pour éliminer certaines propositions données par le correcteur. Le contexte de l’erreur sera dans un premier temps les mots voisinant l’erreur et s’étendra jusqu’à l’ensemble des mots du texte contenant l’erreur. Ayant été testée sur un corpus textuel contenant des erreurs réelles, la méthode que nous proposons aura permis de réduire le nombre moyen de propositions d’environ 75% (de 16,8 à 3,98 propositions en moyenne).