Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Pascale Sébillot, Vincent Claveau (Editors)

Anthology ID:: 2018.jeptalnrecital-demo
Month:: 5
Year:: 2018
Address:: Rennes, France
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
URL:: https://preview.aclanthology.org/landing_page/2018.jeptalnrecital-demo/
DOI:
Bib Export formats:: BibTeX

pdf bib
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Pascale Sébillot | Vincent Claveau

pdf bib abs
CuriosiText : application web d’aide au peuplement d’ontologies métiers comme ressources lexicales basée sur Word2Vec (CuriosiText: a web application based on Word2Vec helping with the population of ontologies (serving as lexical resources))
Meryl Bothua | Delphine Lagarde | Laurent Pierre

Suite à la mise en place d’une chaîne traitement destinée à extraire automatiquement des actions de maintenance réalisées sur des composants dans des comptes rendus, nous avons cherché à constituer des ressources lexicales à partir de textes souvent mal normalisés sur le plan linguistique. Nous avons ainsi développé une application web, CuriosiText, qui permet de lancer un traitement Word2Vec et de peupler semi automatiquement une ontologie métier avec les termes similaires correctement détectés. Des relations métiers spécifiques peuvent également être ajoutées.

pdf bib abs
ACCOLÉ : Annotation Collaborative d’erreurs de traduction pour COrpus aLignÉs (ACCOLÉ: A Collaborative Platform of Error Annotation for Aligned Corpus)
Francis Brunet-Manquat | Emmanuelle Esperança-Rodier

La plateforme ACCOLÉ (Annotation Collaborative d’erreurs de traduction pour COrpus aLignÉs) propose une palette de services innovants permettant de répondre aux besoins modernes d’analyse d’erreurs de traduction : gestion simplifiée des corpus et des typologies d’erreurs, annotation d’erreurs efficace, collaboration et/ou supervision lors de l’annotation, recherche de modèle d’erreurs dans les annotations.

pdf bib abs
Néonaute, Enrichissement sémantique pour la recherche d’information ()
Emmanuel Cartier | Loïc Galand | Peter Stirling | Sara Aubry

Avec l’explosion du nombre de documents numériques accessibles, les besoins en outils pour l’enrichissement sémantique des données textuelles, ainsi que des fonctionnalités avancées de recherche et d’exploration des collections, se font sentir. Cette combinaison entre les domaines de la recherche d’information et du traitement automatique des langues est l’une des caractéristiques du projet Néonaute. Ce projet, financé par la DGLFLF 1 en 2017 (appel Langues et numérique), regroupe la Bibliothèque nationale de France (BnF), le LIPN - RCLN (CNRS UMR 7030) et l’Université de Strasbourg (LILPA, EA 1339). Son objectif principal est de doter les observateurs de la langue française d’un moteur de recherche s’appuyant sur une collection de sites de presse d’actualité, collectés automatiquement par la BnF au titre de sa mission de dépôt légal de l’internet. Sur cette collection, le projet vise à proposer un moteur de recherche de nouvelle génération, disposant d’une indexation enrichie par l’analyse automatique des textes (analyse morphosyntaxique, entités nommées, thématiques), d’une part, et d’outils de recherche, d’exploration et de visualisation multidimensionnelle interactive des résultats, d’autre part.

pdf bib abs
Nouveautés de l’analyseur linguistique LIMA (What’s New in the LIMA Language Analyzer)
Gaël de Chalendar

LIMA est un analyseur linguistique libre d’envergure industrielle. Nous présentons ici ses évolutions depuis la dernière publication en 2014.

pdf bib abs
Un outil d’étiquetage rapide et un corpus libre en entités nommées du Français (A fast tagging tool and a free French named entity corpus)
Yoann Dupont

Dans cet article, nous présentons un outil pour effectuer l’étiquetage rapide de textes bruts. Il peut charger des documents annotés depuis divers formats, notamment BRAT et GATE. Il se base sur des raccourcis claviers intuitifs et la diffusion d’annotation à l’échelle du document. Il permet d’entraîner des systèmes par apprentissage que l’on peut alors utiliser pour préannoter les textes.

pdf bib abs
PyRATA, Python Rule-based feAture sTructure Analysis
Nicolas Hernandez

Nous présentons PyRATA (Python Rules-based feAture sTructure Analysis) un module Python (version 3) diffusé sous licence Apache V2 et disponible sur github 4 et dans les dépots pypi 5 . PyRATA a pour objectif de permettre de l’analyse à base de règles sur des données structurées. Le langage de PyRATA offre une expressivité qui couvre les fonctionnalités proposées par les modules alternatifs et davantage. Conçu pour être intuitif, la syntaxe des motifs et l’interface de programmation (API) suivent les définitions de standards existants, respectivement la syntaxe des expressions régulières de Perl et l’API du module Python re. PyRATA travaille sur des structures de données simples et natives de Python : une liste de dictionnaires (c-à-d une liste de tables d’associations). Cela lui permet de traiter des données de différentes natures (textuelles ou non) telles qu’une liste de mots, une liste de phrases, une liste de messages d’un fil de discussion, une liste d’événements d’un agenda... Cette spécificité le rend indépendant de la nature des annotations (a fortiori linguistiques) associées à la donnée manipulée. Ce travail a été financé par le projet ANR 2016 PASTEL.

pdf bib abs
Un corpus en arabe annoté manuellement avec des sens WordNet (Arabic Manually Sense Annotated Corpus with WordNet Senses)
Marwa Hadj Salah | Hervé Blanchon | Mounir Zrigui | Didier Schwab

OntoNotes comprend le seul corpus manuellement annoté en sens librement disponible pour l’arabe. Elle reste peu connue et utilisée certainement parce que le projet s’est achevé sans lier cet inventaire au Princeton WordNet qui lui aurait ouvert l’accès à son riche écosystème. Dans cet article, nous présentons une version étendue de OntoNotes Release 5.0 que nous avons créée en suivant une méthodologie de construction semi-automatique. Il s’agit d’une mise à jour de la partie arabe annotée en sens du corpus en ajoutant l’alignement vers le Princeton WordNet 3.0. Cette ressource qui comprend plus de 12 500 mots annotés est librement disponible pour la communauté. Nous espérons qu’elle deviendra un standard pour l’évaluation de la désambiguïsation lexicale de l’arabe.