pdf
bib
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Béatrice Bouchou
pdf
bib
abs
LoX : outil polyvalent pour l’exploration de corpus annotés
Laurent Audibert
Cet article présente une application permettant d’écrire des requêtes complexes sur des corpus étiquetés et de formater librement les résultats de ces requêtes. Le formalisme des requêtes est basé sur le principe des expressions régulières bien connu de la plupart des linguistes travaillant sur des corpus écrits. Contrairement à certains logiciels, qui ne permettent que l’extraction de concordances au format relativement figé, le formatage libre du résultat des requêtes permet leur réutilisation par des programmes ultérieurs et autorise une grande diversité d’applications, s’écartant largement du cadre des simples concordanciers.
pdf
bib
abs
Filtrage d’information par analyse partielle Grammaires locales, dictionnaires électroniques et lexique- grammaire pour la recherche d’information
Antonio Balvet
Nous présentons une approche de filtrage d’information par analyse partielle, reprenant les résultats de recherches issues aussi bien de la recherche documentaire que du traitement automatique des langues. Nous précisons les contraintes liées au domaine du filtrage d’information qui militent, à nos yeux, pour une approche linguistique permettant d’obtenir des performances importantes, ainsi qu’une transparence de fonctionnement. Nous présentons quelques résultats concrets pour illustrer le potentiel de l’approche décrite.
pdf
abs
Bibliothèques d’automates finis et grammaires context-free : de nouveaux traitements informatiques
Matthieu Constant
La quantité de documents disponibles via Internet explose. Cette situation nous incite à rechercher de nouveaux outils de localisation d’information dans des documents et, en particulier, à nous pencher sur l’algorithmique des grammaires context-free appliquée à des familles de graphes d’automates finis (strictement finis ou à cycles). Nous envisageons une nouvelle représentation et de nouveaux traitements informatiques sur ces grammaires, afin d’assurer un accès rapide aux données et un stockage peu coûteux en mémoire.
pdf
abs
Identification et catégorisation automatiques des anthroponymes du Français
Nordine Fourour
Cet article préente un système de reconnaissance des noms propres pour le Français. Les spécifications de ce système ont été réalisées à la suite d’une étude en corpus et s’appuient sur des critères graphiques et référentiels. Les critères graphiques permettent de concevoir les traitements à mettre en place pour la délimitation des noms propres et la catégorisation repose sur les critères référentiels. Le système se base sur des règles de grammaire, exploite des lexiques spécialisés et comporte un module d’apprentissage. Les performances atteintes par le système, sur les anthroponymes, sont de 89,4% pour le rappel et 94,6% pour la précision.
pdf
abs
Pour un autre traitement de la temporalité narrative
Stéphanie Girault
Tous les médias continus (parole, texte, musique, cinéma) ont, par définition, une structure linéaire, à partir de laquelle un processus cognitif est capable de reconstituer une organisation temporelle différente. Mais jusqu’à quel point faut-il comprendre un texte pour le segmenter en situations et les articuler entre elles ? Autrement dit : jusqu’à quel point faut-il connaître la musique pour différencier couplet et refrain ? Dans un grand nombre de cas, il est possible d’effectuer une telle segmentation automatiquement, et cela uniquement à partir d’indices morpho-syntaxiques. Notre prototype de programme identifie des situations référentielles et analyse la façon dont elles sont articulées pour reconstruire la structure temporelle d’un récit. L’objectif de cette communication n’est pas la description de ce programme, mais plutôt le point de vue du linguiste : comment détecter les discontinuités, c’est-à-dire comment décider s’il y a complétion ou rupture.
pdf
abs
Analyse sémantique dans un système de question-réponse
Laura Monceaux
Dans cet article, nous présentons le système QALC (Question Answering Langage Cognition) qui a participé à la tâche Question Réponse de la conférence d’évaluation TREC. Ce système a pour but d’extraire la réponse à une question d’une grande masse de documents. Afin d’améliorer les résultats de notre système, nous avons réfléchi à la nécessité de développer, dans le module d’analyse, le typage des questions mais aussi d’introduire des connaissances syntaxico-sémantiques pour une meilleure recherche de la réponse.
pdf
abs
La recherche documentaire : une activité langagière
Vincent Perlerin
Un nombre important de requêtes soumises aux moteurs de recherche du W3 ne satisfont pas pleinement les attentes des utilisateurs. La liste de documents proposée en retour est souvent trop longue : son exploration représente un travail exagérément laborieux pour l’auteur de la requête. Nous proposons d’apporter une valeur ajoutée aux systèmes de recherche documentaire (RD) existants en y ajoutant un filtrage n’utilisant que des données fournies par l’utilisateur. L’objectif de notre étude est de confronter un modèle dynamique de la mémoire sémantique des individus (ou des agents) développé par notre équipe à une tâche nécessitant une compétence interprétative de la part des machines. Nous souhaitons dépasser la sémantique lexicale couramment utilisée dans ce champ d’application pour aboutir à l’utilisation d’une sémantique des textes et accroître par ce biais, à la fois la qualité des résultats et la qualité de leur présentation aux usagers.
pdf
abs
Dictionnaires distributionnels et étiquetage lexical de corpus
Delphine Reymond
Ce papier présente la première partie d’un travail de thèse qui vise à construire un « dictionnaire distributionnel » à partir d’un corpus de référence. Le dictionnaire proposé est basé sur un ensemble de critères différentiels stricts qui constituent des indices exploitables par des machines pour discriminer le sens des mots en contexte. Pour l’instant, le travail a porté sur 50 000 occurrences qui ont été étiquetées de façon manuelle. Ce sous-corpus pourra servir de corpus d’amorçage pour la constitution d’un corpus étiqueté plus grand, qui pourrait servir à différents tests et travaux sur la désambiguïsation automatique.