Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations

Yannick Estève, Tania Jiménez, Titouan Parcollet, Marcely Zanon Boito (Editors)


Anthology ID:
2022.jeptalnrecital-demo
Month:
6
Year:
2022
Address:
Avignon, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
URL:
https://aclanthology.org/2022.jeptalnrecital-demo
DOI:
Bib Export formats:
BibTeX

pdf bib
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations
Yannick Estève | Tania Jiménez | Titouan Parcollet | Marcely Zanon Boito

pdf bib
Aider à une rédaction plus inclusive (Making writing more inclusive)
Maud Pironneau

Depuis 1993, Druide informatique est une entreprise québécoise spécialisée dans le développement et la commercialisation de logiciels d’aide à la rédaction. Son produit phare, Antidote, est une suite d’aide à la rédaction composée d’un correcteur, de dictionnaires et de guides. Il est commercialisé depuis plus de 25 ans et est utilisé par plus d’un million de personnes, en français comme en anglais. Le correcteur d’Antidote est un correcteur grammatical avancé qui effectue l’analyse complète de chaque phrase et tire de cette analyse ses multiples diagnostics, divisés dans plusieurs volets et filtres. Dans le volet Langue, Antidote pointe et corrige les fautes d’orthographe, de grammaire, de conjugaison, etc. en les expliquant. Dans le volet Style, le correcteur d’Antidote va plus loin et s’attaque à la stylistique, en présentant les répétitions, les tournures lourdes et la lisibilité. Maintenant, il montre également les éléments du texte qui contreviennent à la représentation équitable des hommes et des femmes dans le texte grâce à son filtre d’inclusivité.

pdf bib
Dialogue avec Molière (Dialogue with Molière )
Guillaume Grosjean | Anna Pappa | Baptiste Roziere | Tristan Cazenave

A l’occasion du quatre-centième anniversaire de la naissance de Molière (1622-1673), nous présentons un agent conversationnel qui parle comme un personnage du théâtre de Molière. Le chatbot a été entraîné avec un modèle GPT adapté (Radford et al., 2018), sur un dataset composé des oeuvres de Molière. Le modèle génératif respecte la langue et le style des personnages de Molière lorsqu’il donne la réplique de l’agent. Il lui arrive malgré tout de manquer de cohérence dans la réponse.

pdf
SIMI : un système de suggestion de littérature médicale (SIMI: A recommender system of medical literature)
Pierre Jourlin

Nous faisons la démonstration de SIMI, un système de suggestion de littérature médicale entièrement automatisé. À partir d’une description d’un cas clinique en français, SIMI extrait les termes médicaux présents en résolvant simultanément les éventuelles ambiguïtés. Il traduit alors les termes en anglais et construit une requête de recherche documentaire qui comprend les éventuels synonymes et hyponymes des termes originaux. Cette requête permet de retrouver et catégoriser les documents pertinents issus d’une base de plusieurs dizaines de millions de notices bibliographiques multilingues français-anglais. Ce système a été développé dans le cadre d’un transfert technologique associant une université, une société d’accélération de transfert technologique et une société qui commercialise une solution de téléexpertise médicale.

pdf
Toolbox : une chaîne de traitement de corpus pour les humanités numériques (Toolbox : a corpus processing pipeline for digital humanities)
Johanna Mayra Cordova | Yoann Dupont | Ljudmila Petkovic | James Gawley | Motasem Alrahabi | Glenn Roe

Le projet Toolbox propose une chaîne de traitement pour la manipulation et le traitement de corpus textuels incluant la numérisation (OCR/HTR), la conversion au format TEI, la fouille de texte (reconnaissance d’entités nommées) et la visualisation de données. Les fonctionnalités sont accessibles via une interface en ligne qui sert de surcouche graphique à des scripts développés par nos soins ou utilisant des outils externes. Elles permettent d’automatiser les tâches élémentaires de traitement de corpus pour les chercheurs en humanités numériques. Cet outil est ouvert aux contributions externes.

pdf
Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement (An annotated corpus for abstractive question generation and extractive answer for education)
Thomas Gerald | Sofiane Ettayeb | Ha Quang Le | Anne Vilnat | Gabriel Illouz | Patrick Paroubek

Dans cette démonstration, nous présenterons les travaux en cours pour l’annotation d’un nouveau corpus de questions-réponses en langue Française. Contrairement aux corpus existant comme “FQuad” ou “Piaf”, nous nous intéressons à l’annotation de questions-réponses “non factuelles”. En effet, si dans la littérature, de nombreux corpus et modèles de questions-réponses pré-entraînés sont disponibles, ceux-ci ne privilégient que rarement les annotations s’appuyant sur un schéma de raisonnement issue de l’agrégation de différentes sources ou contextes. L’objectif du projet associé est de parvenir à la création d’un assistant virtuel pour l’éducation, ainsi des réponses explicatives, de raisonnement et/ou d’agrégation de l’information sont à privilégier. Notons enfin, que la volumétrie des données doit être conséquente, en particulier par la considération d’approches neuronales génératives ou extractives. Actuellement, nous disposons de 262 questions et réponses obtenues durant l’étape de validation de la campagne d’annotation. Une deuxième phase d’annotation avec une volumétrie plus importante débutera fin mai 2022 (environ 8000 questions).