pdf
bib
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Adeline Nazarenko
|
Thierry Poibeau
pdf
bib
abs
ACOLAD un environnement pour l’édition de corpus de dépendances
Francis Brunet-Manquat
|
Jérôme Goulian
Dans cette démonstration, nous présentons le prototype d’un environnement open-source pour l’édition de corpus de dépendances. Cet environnement, nommé ACOLAD (Annotation de COrpus Linguistique pour l’Analyse de dépendances), propose des services manuels de segmentation et d’annotation multi-niveaux (segmentation en mots et en syntagmes minimaux (chunks), annotation morphosyntaxique des mots, annotation syntaxique des chunks et annotation syntaxique des dépendances entre mots ou entre chunks).
pdf
bib
abs
Amener des utilisateurs à créer et évaluer des paraphrases par le jeu
Houda Bouamor
|
Aurélien Max
|
Anne Vilnat
Dans cet article, nous présentons une application sur le web pour l’acquisition de paraphrases phrastiques et sous-phrastiques sous forme de jeu. L’application permet l’acquisition à la fois de paraphrases et de jugements humains multiples sur ces paraphrases, ce qui constitue des données particulièrement utiles pour les applications du TAL basées sur les phénomènes paraphrastiques.
pdf
abs
anymalign : un outil d’alignement sous-phrastique libre pour les êtres humains
Adrien Lardilleux
|
Yves Lepage
Nous présentons anymalign, un aligneur sous-phrastique grand public. Ses résultats ont une qualité qui rivalise avec le meilleur outil du domaine, GIZA++. Il est rapide et simple d’utilisation, et permet de produire dictionnaires et autres tables de traduction en une seule commande. À notre connaissance, c’est le seul outil au monde permettant d’aligner un nombre quelconque de langues simultanément. Il s’agit donc du premier aligneur sousphrastique réellement multilingue.
pdf
abs
Apport des outils de TAL à la construction d’ontologies : propositions au sein de la plateforme DaFOE
Jean Charlet
|
Sylvie Szulman
|
Nathalie Aussenac-Gilles
|
Adeline Nazarenko
|
Nathalie Hernandez
|
Nadia Nadah
|
Éric Sardet
|
Jean Delahousse
|
Guy Pierra
La construction d’ontologie à partir de textes fait l’objet d’études depuis plusieurs années dans le domaine de l’ingénierie des ontologies. Un cadre méthodologique en quatre étapes (constitution d’un corpus de documents, analyse linguistique du corpus, conceptualisation, opérationnalisation de l’ontologie) est commun à la plupart des méthodes de construction d’ontologies à partir de textes. S’il existe plusieurs plateformes de traitement automatique de la langue (TAL) permettant d’analyser automatiquement les corpus et de les annoter tant du point de vue syntaxique que statistique, il n’existe actuellement aucune procédure généralement acceptée, ni a fortiori aucun ensemble cohérent d’outils supports, permettant de concevoir de façon progressive, explicite et traçable une ontologie de domaine à partir d’un ensemble de ressources informationnelles relevant de ce domaine. Le but de ce court article est de présenter les propositions développées, au sein du projet ANR DaFOE 4app, pour favoriser l’émergence d’un tel ensemble d’outils.
pdf
abs
ASSIST : un moteur de recherche spécialisé pour l’analyse des cadres d’expériences
Davy Weissenbacher
|
Elisa Pieri
|
Sophia Ananiadou
|
Brian Rea
|
Farida Vis
|
Yuwei Lin
|
Rob Procter
|
Peter Halfpenny
L’analyse qualitative des données demande au sociologue un important travail de sélection et d’interprétation des documents. Afin de faciliter ce travail, cette communauté c’est dotée d’outils informatique mais leur fonctionnalités sont encore limitées. Le projet ASSIST est une étude exploratoire pour préciser les modules de traitement automatique des langues (TAL) permettant d’assister le sociologue dans son travail d’analyse. Nous présentons le moteur de recherche réalisé et nous justifions le choix des composants de TAL intégrés au prototype.
pdf
abs
CETLEF.fr - diagnostic automatique des erreurs de déclinaison tchèque dans un outil ELAO
Ivan Šmilauer
CETLEF.fr – une application Web dynamique – propose des exercices de déclinaison tchèque avec un diagnostic automatique des erreurs. Le diagnostic a nécessité l’élaboration d’un modèle formel spécifique de la déclinaison contenant un classement des types paradigmatiques et des règles pour la réalisation des alternances morphématiques. Ce modèle est employé pour l’annotation des formes requises, nécessaire pour le diagnostic, mais également pour une présentation didactique sur la plateforme apprenant. Le diagnostic est effectué par comparaison d’une production erronée avec des formes hypothétiques générées à partir du radical de la forme requise et des différentes désinences casuelles. S’il existe une correspondance, l’erreur est interprétée d’après les différences dans les traits morphologiques de la forme requise et de la forme hypothétique. La majorité des erreurs commises peut être interprétée à l’aide de cette technique.
pdf
abs
CIFLI-SurviTra, deux facettes : démonstrateur de composants de TA fondée sur UNL, et phrasebook multilingue
Georges Fafiotte
|
Achille Falaise
|
Jérôme Goulian
CIFLI-SurviTra (“Survival Translation” assistant) est une plate-forme destinée à favoriser l’ingénierie et la mise au point de composants UNL de TA, à partir d’une mémoire de traduction formée de livres de phrases multilingues avec variables lexicales. SurviTra est aussi un phrasebook digital multilingue, assistant linguistique pour voyageurs monolingues (français, hindi, tamoul, anglais) en situation de “survie linguistique”. Le corpus d’un domaine-pilote (“Restaurant”) a été structuré et construit : sous-domaines de phrases alignées et classes lexicales de locutions quadrilingues, graphes UNL, dictionnaires UW++/français et UW++/hindi par domaines. L’approche, générique, est applicable à d’autres langues. Le prototype d’assistant linguistique (application Web, à interface textuelle) peut évoluer vers une application UNL embarquée sur SmartPhone, avec Traitement de Parole et multimodalité.
pdf
abs
Composition multilingue de sentiments
Stefanos Petrakis
|
Manfred Klenner
|
Étienne Ailloud
|
Angela Fahrni
Nous présentons ici PolArt, un outil multilingue pour l’analyse de sentiments qui aborde la composition des sentiments en appliquant des transducteurs en cascade. La compositionnalité est assurée au moyen de polarités préalables extraites d’un lexique et des règles de composition appliquées de manière incrémentielle.
pdf
abs
EXCOM : Plate-forme d’annotation sémantique de textes multilingues
Motasem Alrahabi
|
Jean-Pierre Desclés
Nous proposons une plateforme d‟annotation sémantique, appelée « EXCOM ». Basée sur la méthode de l‟ « Exploration Contextuelle », elle permet, à travers une diversité de langues, de procéder à des annotations automatiques de segments textuels par l’analyse des formes de surface dans leur contexte. Les textes sont traités selon des « points de vue » discursifs dont les valeurs sont organisées dans une « carte sémantique ». L‟annotation se base sur un ensemble de règles linguistiques, écrites par un analyste, qui permettent d‟identifier les représentations textuelles sous-jacentes aux différentes catégories de la carte. Le système offre, à travers deux types d‟interfaces (développeur ou utilisateur), une chaîne de traitements automatiques de textes qui comprend la segmentation, l‟annotation et d‟autres fonctionnalités de post-traitement. Les documents annotés peuvent être utilisés, par exemple, pour des systèmes de recherche d‟information, de veille, de classification ou de résumé automatique.
pdf
La plate-forme d’annotation Glozz
Antoine Widlöcher
|
Yann Mathet
pdf
abs
SAGACE-v3.3 ; Analyseur de corpus pour langues non flexionnelles
Blin Raoul
Nous présentons la dernière version du logiciel SAGACE, analyseur de corpus pour langues faiblement flexionnelles (par exemple japonais ou chinois). Ce logiciel est distribué avec un lexique où les catégories sont exprimées à l’aide de systèmes de traits.
pdf
abs
Apache UIMA pour le Traitement Automatique des Langues
Nicolas Hernandez
|
Fabien Poulard
|
Stergos Afantenos
|
Matthieu Vernier
|
Jérôme Rocheteau
L’objectif de la démonstration est d’une part de faire un retour d’expérience sur la solution logicielle Apache UIMA comme infrastructure de développement d’applications distribuées de TAL, et d’autre part de présenter les développements réalisés par l’équipe TALN du LINA pour permettre à la communauté de s’approprier ce « framework ».
pdf
Un Analyseur Sémantique pour le DHM
Jérôme Lehuen
|
Thierry Lemeunier
pdf
abs
Un chunker multilingue endogène
Jacques Vergne
Le chunking consiste à segmenter un texte en chunks, segments sous-phrastiques qu’Abney a défini approximativement comme des groupes accentuels. Traditionnellement, le chunking utilise des ressources monolingues, le plus souvent exhaustives, quelquefois partielles : des mots grammaticaux et des ponctuations, qui marquent souvent des débuts et fins de chunk. Mais cette méthode, si l’on veut l’étendre à de nombreuses langues, nécessite de multiplier les ressources monolingues. Nous présentons une nouvelle méthode : le chunking endogène, qui n’utilise aucune ressource hormis le texte analysé lui-même. Cette méthode prolonge les travaux de Zipf : la minimisation de l’effort de communication conduit les locuteurs à raccourcir les mots fréquents. On peut alors caractériser un chunk comme étant la période des fonctions périodiques correllées longueur et effectif des mots sur l’axe syntagmatique. Cette méthode originale présente l’avantage de s’appliquer à un grand nombre de langues d’écriture alphabétique, avec le même algorithme, sans aucune ressource.