Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 - Démonstrations

Iris Eshkol-Taravella, Jean-Yves Antoine (Editors)


Anthology ID:
2017.jeptalnrecital-demo
Month:
6
Year:
2017
Address:
Orléans, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
URL:
https://aclanthology.org/2017.jeptalnrecital-demo
DOI:
Bib Export formats:
BibTeX

pdf bib
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 - Démonstrations
Iris Eshkol-Taravella | Jean-Yves Antoine

pdf bib
Les TIC au service de l’enseignement : Cas de la formation et auto-formation de la langue amazighe (Information and Communication Technologies for Education: the case of amazigh language teaching and self-teaching)
Mounia Boumediane

Le Centre des Études Informatiques, des Systèmes d’Information et de Communication (CEISIC), issu de l’Institut Royal de la Culture Amazighe (IRCAM), fédère au sein du portail TALAM, un ensemble de ressources linguistiques informatisées et d’outils de traitement de la langue dédiées à l’amazighe. Dans ce qui suit, nous présenterons les différentes ressources, applications et outils linguistiques développés en langue amazighe pour accompagner toute personne, de différente tranche d’âge, assoiffée d’apprendre la langue Amazighe.

pdf bib
Wordsurf : un outil pour naviguer dans un espace de « Word Embeddings » (Wordsurf : a tool to surf in a “word embeddings” space)
Philippe Suignard

Dans cet article, nous présentons un outil appelé « Wordsurf » pour faciliter la phase d’exploration et de navigation dans un espace de « Word Embeddings » préalablement entrainé sur des corpus de textes avec Word2Vec.

pdf
Un outil pour la manipulation de ressources arborées (A tool for handling tree-based linguistic resources)
Yannick Parmentier

Dans cet article, nous présentons brièvement pytreeview, un outil pour la manipulation de ressources arborées (corpus annotés, grammaires électroniques). Initialement conçu pour assiter les utilisateurs linguistes dans leur tâche de développement de grammaires arborescentes, pytreeview a été étendu pour permettre de manipuler des ressources arborées variées (grammaires mais aussi corpus aux formats FTB, PTB, CoNLL, Tiger), afin d’en extraire des informations utiles (par exemple la distribution des cadres de sous-catégorisation). pytreeview est actuellement utilisé dans le cadre d’un projet visant l’extraction semi-automatique de grammaires abstraites (méta-grammaires) à partir de corpus arborés.

pdf
Un étiqueteur en ligne du Français (An online tagger for French)
Yoann Dupont | Clément Plancq

Nous proposons ici une interface en ligne pour étiqueter des textes en français selon trois niveaux d’analyses : la morphosyntaxe, le chunking et la reconnaissance des entités nommées. L’interface se veut simple et les étiquetages réutilisables, ces derniers pouvant être exportés en différents formats.

pdf
Apprentissage d’agents conversationnels pour la gestion de relations clients (Training chatbots for customer relation management)
Benoit Favre | Frederic Bechet | Géraldine Damnati | Delphine Charlet

Ce travail démontre la faisabilité d’entraîner des chatbots sur des traces de conversations dans le domaine de la relation client. Des systèmes à base de modèles de langage, de recherche d’information et de traduction sont comparés pour la tâche.

pdf
Conception d’une solution de détection d’événements basée sur Twitter (Design of a solution for event detection from Tweeter)
Christophe Servan | Catherine Kobus | Yongchao Deng | Cyril Touffet | Jungi Kim | Inès Kapp | Djamel Mostefa | Josep Crego | Aurélien Coquard | Jean Senellart

Cet article présente un système d’alertes fondé sur la masse de données issues de Tweeter. L’objectif de l’outil est de surveiller l’actualité, autour de différents domaines témoin incluant les événements sportifs ou les catastrophes naturelles. Cette surveillance est transmise à l’utilisateur sous forme d’une interface web contenant la liste d’événements localisés sur une carte.

pdf
Une plateforme de recommandation automatique d’emojis (An emoji recommandation platform)
Gaël Guibon | Magalie Ochs | Patrice Bellot

Nous présentons une interface de recommandation d’emojis porteurs de sentiments qui utilise un modèle de prédiction appris sur des messages informels privés. Chacun étant associé à deux scores de polarité prédits. Cette interface permet permet également d’enregistrer les choix de l’utilisateur pour confirmer ou infirmer la recommandation.

pdf
Un outil modulaire libre pour le résumé automatique (A Modular Open Source Tool for Automatic Summarization)
Valentin Nyzam | Aurélien Bossard

automatique Valentin Nyzam Aurélien Bossard LIASD, Université Paris 8 - IUT de Montreuil, 140 rue de la Nouvelle France, 93100 Montreuil, France valentin.nyzam@iut.univ-paris8.fr, aurelien.bossard@iut.univ-paris8.fr R ÉSUMÉ Nous proposons une démonstration d’un outil modulaire et évolutif de résumé automatique qui implémente trois méthodes d’extraction de phrases de l’état de l’art ainsi que sept méthodes d’évaluation des phrases. L’outil est développé en Java et est d’ores-et-déjà disponible sur la plateforme Github.

pdf
Uniformisation de corpus anglais annotés en sens (Unification of sense annotated English corpora for word sense disambiguation)
Loïc Vial | Benjamin Lecouteux | Didier Schwab

Pour la désambiguïsation lexicale en anglais, on compte aujourd’hui une quinzaine de corpus annotés en sens dans des formats souvent différents et provenant de différentes versions du Princeton WordNet. Nous présentons un format pour uniformiser ces corpus, et nous fournissons à la communauté l’ensemble des corpus annotés en anglais portés à notre connaissance avec des sens uniformisés du Princeton WordNet 3.0, lorsque les droits le permettent et le code source pour construire l’ensemble des corpus à partir des données originales.

pdf
Résumer automatiquement en ligne : démonstration d’un service web de résumé multidocument (Summarizing Automatically Online : We propose a demonstration of an automatic multidocument summarization web service)
Valentin Nyzam | Nathan Gatto | Aurélien Bossard

r automatiquement en ligne : démonstration d’un service web de résumé multidocument Valentin Nyzam Nathan Gatto Aurélien Bossard LIASD, Université Paris 8 - IUT de Montreuil, 140 rue de la Nouvelle France, 93100 Montreuil, France valentin.nyzam@iut.univ-paris8.fr, nathan.gatto@free.fr, aurelien.bossard@iut.univ-paris8.fr R ÉSUMÉ Nous proposons une démonstration d’un webservice de résumé automatique multidocument. Ce webservice s’appuie sur un outil ouvert qui implémente plusieurs algorithmes reconnus de résumé automatique, et permet de résumer des documents en utilisant des configurations différentes.

pdf
Traitement automatique de la langue biomédicale au LIMSI (Biomedical language processing at LIMSI)
Christopher Norman | Cyril Grouin | Thomas Lavergne | Aurélie Névéol | Pierre Zweigenbaum

Nous proposons des démonstrations de trois outils développés par le LIMSI en traitement automatique des langues appliqué au domaine biomédical : la détection de concepts médicaux dans des textes courts, la catégorisation d’articles scientifiques pour l’assistance à l’écriture de revues systématiques, et l’anonymisation de textes cliniques.

pdf
Proxem Studio : la plate-forme d’analyse sémantique qui transforme l’utilisateur métier en text scientist (ProxemStudio: the semantic analysis platform that turns the business user into a text scientist)
Francois-Regis Chaumartin

Proxem édite depuis 2011 une plate-forme d’analyse sémantique multilingue utilisé en entreprise pour de multiples usages : relation clients, ressources humaines, veille stratégique... La version la plus récente du logiciel, lancée en mars 2017, lève le principal goulet d’étranglement des outils classiques de text mining : un utilisateur métier devient enfin autonome pour définir lui-même les ressources linguistiques nécessaires à l’analyse sémantique d’un corpus donné. Une fois le corpus chargé, la plate-forme en extrait une terminologie et organise les termes en regroupements hiérarchisés de proto-concepts ; l’utilisateur n’a plus qu’à valider ces concepts au niveau de granularité qui lui semble pertinent pour constituer un extracteur d’entités nommées de granularité fine, adapté au corpus à traiter, avec un rappel élevé grâce à l’identification automatique des quasisynonymes. La plate-forme détecte aussi dans ces termes les homonymes potentiels et propose à l’utilisateur des contextes de désambiguïsation, fournissant ainsi une bonne précision.

pdf
Translittération automatique pour une paire de langues peu dotée ()
Ngoc Tan Le | Fatiha Sadat | Lucie Ménard

La translittération convertit phonétiquement les mots dans une langue source (i.e. français) en mots équivalents dans une langue cible (i.e. vietnamien). Cette conversion nécessite un nombre considérable de règles définies par les experts linguistes pour déterminer comment les phonèmes sont alignés ainsi que prendre en compte le système de phonologie de la langue cible. La problématique pour les paires de langues peu dotées lie à la pénurie des ressources linguistiques. Dans ce travail de recherche, nous présentons une démonstration de conversion de graphème en phonème pour pallier au problème de translittération pour une paire de langues peu dotée, avec une application sur français-vietnamien. Notre système nécessite un petit corpus d’apprentissage phonétique bilingue. Nous avons obtenu des résultats prometteurs, avec un gain de +4,40% de score BLEU, par rapport au système de base utilisant l’approche de traduction automatique statistique.

pdf
Motor, un outil de segmentation accessible en ligne (Motor, a segmentation tool accessible online)
Guillaume de Malézieux | Jennifer Lewis-Wong | Vincent Berment

Dans cette démonstration, nous montrons le fonctionnement des segmenteurs disponibles en ligne pour diverses langues (birman, khmer, lao, thaï et tibétain) et réalisés avec l’outil Motor.