Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels

Denis Maurel (Editor)


Anthology ID:
2001.jeptalnrecital-tutoriel
Month:
July
Year:
2001
Address:
Tours, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
URL:
https://aclanthology.org/2001.jeptalnrecital-tutoriel
DOI:
Bib Export formats:

pdf
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels
Denis Maurel

pdf
Extraction de collocations à partir de textes
Béatrice Daille

Les collocations sont intéressantes dans de nombreuses applications du TALN comme la l’analyse ou la génération de textes ou encore la lexicographie monolingue ou bilingue. Les premières tentatives d’extraction automatique de collocations à partir de textes ou de dictionnaires ont vu le jour dans les années 1970. Il s’agissait principalement de méthodes à base de statistiques lexicales. Aujourd’hui, les méthodes d’identification automatique font toujours appel à des statistiques mais qu’elles combinent avec des analyses linguistiques. Nous examinons quelques méthodes d’identification des collocations en corpus en soulignant pour chaque méthode les propriétés linguistiques des collocations qui ont été prises en compte.

pdf
Sur les caractéristiques de la collocation
Geoffrey Williams

Le terme “collocation “a été introduit dans les années ’30 par J. R. F irth, membre-fondateur de l’école contextualiste britannique, pour caractériser certains phénomènes linguistiques de cooccurrence. Ce phénomène est maintenant accepté comme central dans la compétence linguistique des locuteurs natifs et de grande importance pour l enseignement, la traduction, la lexicographie, et dorénavant, le TALN. Malheureusement, le concept est difiicile a formaliser et ne peut être étudié que par rapport a des exemples prototypiques. Quatre caractéristiques sont analysées, leur nature habituelle, lexicalement transparente, arbitraire et syntactiquement bien formée. Les avantages et inconvénients de chaque critère sont discutés.

pdf
Grammaires de dŽpendance formelles et thŽorie Sens-Texte
Sylvain Kahane

On appelle grammaire de dŽpendance toute grammaire formelle qui manipule comme reprŽsentations syntaxiques des structures de dŽpendance. Le but de ce cours est de prŽsenter ˆ la fois les grammaires de dŽpendance (formalismes et algorithmes de synthse et dÕanalyse) et la thŽorie Sens-Texte, une thŽorie linguistique riche et pourtant mŽconnue, dans laquelle la dŽpendance joue un r™le crucial et qui sert de base thŽorique ˆ plusieurs grammaires de dŽpendance.

pdf
Formal Languages for Linguists: Classical and Nonclassical Models
Carlos Martín-Vide

pdf
L’apport de connaissances linguistiques en recherche documentaire
Claude De Loupy

L’utilisation de connaissances et de traitements linguistiques évolués en recherche documentaire ne fait pas l’unanimité dans le milieu scientifique. En effet, de nombreuses expériences semblent montrer que les résultats obtenus ne sont pas améliorés, voire sont parfois dégradés, lorsque de telles connaissances sont utilisées dans un système de RD. Dans ce tutoriel, nous montrons que les environnements d’évaluation ne sont pas adaptés aux besoins réels d’un utilisateur car celui-ci recherche presque toujours une information. Il veut donc retrouver des documents pertinents le plus rapidement possible car ce n’est pas là le but de sa recherche. Le temps global de la recherche est donc fondamentalement important. Néanmoins, le cadre d’évaluation TREC nous permet de montrer que l’utilisation de connaissances linguistiques permet d’augmenter la précision des premiers documents renvoyés, ce qui est très important pour diminuer le temps de recherche.

pdf
Intex et ses applications informatiques
Max Silberztein | Thierry Poibeau | Antonio Balvet

Intex est un environnement de développement utilisé pour construire, tester et accumuler rapidement des motifs morpho-syntaxiques qui apparaissent dans des textes écrits en langue naturelle. Un survol du système est présenté dans [Silberztein, 1999] , le manuel d’instruction est disponible [Silberztein 2000]. Chaque description élémentaire est représentée par une grammaire locale, qui est habituellement entrée en machine grâce à l’éditeur de graphe d’Intex. Une caractéristique importante d’Intex est que chaque grammaire locale peut être facilement réemployée dans d’autres grammaires locales. Typiquement, les développeurs construisent des graphes élémentaires qui sont équivalents à des transducteurs à états finis, et réemploient ces graphes dans d’autres graphes de plus en plus complexes. Une seconde caractéristique d’Intex est que les objets traités (grammaires, dictionnaires et textes) sont représentés de façon interne par des transducteurs à états finis. En conséquence, toutes les fonctionnalités du système se ramènent à un nombre limité d’opérations sur des transducteurs. Par exemple, appliquer une grammaire à un texte revient à construire l’union des transducteurs élémentaires, la déterminiser, puis à calculer l’intersection du résultat avec le transducteur du texte. Cette architecture permet d’utiliser des algorithmes efficaces (par ex. lorsqu’on applique un transducteur déterministe à un texte préalablement indexé), et donne à Intex la puissance d’une machine de Turing (grâce à la possibilité d’appliquer des transducteurs en cascade). Dans ce tutoriel, nous montrerons comment utiliser un outil linguistique tel qu’Intex dans des environnements informatiques. Nous nous appuierons sur des applications de filtrage et d’extraction d’information, réalisées notamment au centre de recherche de Thales. Les applications suivantes seront détaillées, tant sur le plan linguistique qu’informatique filtrage d’information a partir d’un flux AFP [Meunier et al. l999] extraction de tables d’interaction entre gènes à partir de bases de données textuelles en génomique. [Poibeau 2001] Le tutoriel montrera comment Intex peut être employé comme moteur de filtrage d’un flux de dépêches de type AFP dans un cadre industriel. Il détaillera également les fonctionnalités de transformations des textes (transduction) permettant de passer rapidement de structures linguistiques variées à des formes normalisées permettant de remplir une base de données. Sur le plan informatique, on détaillera l’appel aux routines Intex, les paramétrages possibles (découpage en phrases, choix des dictionnaires...), et on survolera les nouvelles possibilités d’intégration (Intex API).