Cette démonstration présente les avancées d’ACCOLÉ (Annotation Collaborative d’erreurs de traduction pour COrpus aLignÉs), qui en plus de proposer une gestion simplifiée des corpus et des typologies d’erreurs, l’annotation d’erreurs pour des corpus de traduction bilingues alignés, la collaboration et/ou supervision lors de l’annotation, la recherche de modèle d’erreurs dans les annotations, permet désormais d’annoter les Expressions Polylexicales (EPL) dans des textes monolingues en français, et d’accéder à l’annotation d’erreurs pour des corpus de traduction multicibles. Dans cet article, après un bref rappel des fonctionnalités d’ACCOLÉ, nous explicitons les fonctionnalités de chaque nouveauté.
Nous présentons ici une nouvelle ressource libre : le corpus EN-ISTEX, un corpus de deux cents articles scientifiques annotés manuellement en entités nommées. Ces articles ont été extraits des deux éditeurs scientifiques les plus importants de la plateforme ISTEX. Tous les domaines sont concernés, même si les sciences dites dures, en particulier les sciences du vivant et de la santé, sont prépondérantes. Parmi ceux-ci vingt articles ont été multi-annotés afin de vérifier l’adéquation du guide d’annotation et la fiabilité de l’annotation. L’accord inter annotateurs sur ces vingt textes s’élève à 91 %.
GECko+ : a Grammatical and Discourse Error Correction Tool We introduce GECko+, a web-based writing assistance tool for English that corrects errors both at the sentence and at the discourse level. It is based on two state-of-the-art models for grammar error correction and sentence ordering. GECko+ is available online as a web application that implements a pipeline combining the two models.
L’accès à l’information dans la documentation technique est une application particulière et complexe du traitement du langage naturel et de la recherche d’information. La difficulté tient aux contraintes propres des langages métier spécialisés et semi-contrôlés. Dans ce document, nous proposons un outil d’accès à l’information dans différents types de documents. Notre solution exploite conjointement la structure organisationnelle des documents et leur contenu informationnel, pour extraire des informations métier dans des différents corpus. Nous proposons un système basé sur des interactions expert-machine dans un cycle d’amélioration continu des modèles d’extraction. Notre approche exploite des modèles d’apprentissage à faible supervision ne nécessitant pas d’expertise en ingénierie des langues. Notre système intègre l’utilisateur dans le processus de qualification de l’information et permet de guider son apprentissage, afin de rendre ses modèles plus performants au fil du temps.
We present a novel annotation tool called SIDRES (Système Interactif de Détection et de Reconnaissance d’Entités Sémantiques [Interactive System for the Detection and Identification of Semantic Entities]). SIDRES provides an annotation environment for classifying text units through ad hoc categories. These categories can be coupled with contexts, so as to provide a means for the disambiguation of formally identical units assigned to different categories. SIDRES was developed as part of an industrial partnership between the LIA (Laboratoire d’Informatique d’Avignon [Research Institute of Informatics at the University of Avignon]) and a French company in the eHealth sector. This partnership was created within the framework of a technology-transfer project promoted by the SATT Sud-Est, whose core mission is bringing together industry and research institutions.