Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 : 23e REncontres jeunes Chercheurs en Informatique pour le TAL (RECITAL)

Pascal Denis, Natalia Grabar, Amel Fraisse, Rémi Cardon, Bernard Jacquemin, Eric Kergosien, Antonio Balvet (Editors)

Anthology ID:: 2021.jeptalnrecital-recital
Month:: 6
Year:: 2021
Address:: Lille, France
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
URL:: https://aclanthology.org/2021.jeptalnrecital-recital
DOI:
Bib Export formats:: BibTeX

pdf bib abs
Améliorer un agent conversationnel : prendre en compte à la volée des retours utilisateurs (Improve a conversational agent : considering on the fly user feedback)
Maxime Arens

Nous présentons une approche améliorant la pertinence des réponses d’un système conversationnel de question-réponse en profitant de l’expérience passée du système. Un agent conversationnel déployé au contact d’utilisateurs peut en effet profiter de retours afin d’améliorer la validité de ces futures réponses. Les systèmes de question-réponse fonctionnent généralement autour d’un modèle rapprochant sémantiquement une question à une ou plusieurs réponses potentielles. Ici, nous prenons en compte le cas où le modèle de correspondance rapproche une question à une liste de réponses associées à un score de pertinence. Une approche classique pour prendre en compte les retours d’utilisateurs, est de les utiliser pour augmenter le nombre de données de réentrainement du modèle de rapprochement sémantique. Nous proposons une approche différente, impactant le score des réponses potentielles, où nous prenons en compte « à la volée » les retours utilisateurs : entre le moment où l’utilisateur pose une nouvelle question et celui où le système lui répond.

pdf bib abs
Extraction de fragments syntaxiques en français à partir d’une mesure d’autonomie basée sur l’entropie (Mining French syntactic fragments using an entropy-based autonomy measure)
Marine Courtin

Dans cet article nous nous intéressons à la prédiction du caractère syntaxique ou non d’une séquence de tokens dans des corpus du français. En particulier, nous comparons une méthode d’extraction de fragments syntaxiques identifiés au moyen d’une mesure d’autonomie basée sur l’entropie à une méthode de référence qui extrait des fragments aléatoires. Les résultats semblent indiquer que les fragments ainsi extraits sont bien plus souvent des unités syntaxiques que les fragments aléatoires. Une telle méthode pourrait être utilisée dans des travaux ultérieurs afin de proposer une induction non-supervisée de structures de dépendances syntaxiques.

pdf abs
Les lettres et la machine : un état de l’art en traduction littéraire automatique (Machines in the humanities: current state of the art in literary machine translation)
Damien Hansen

Étant donné la récente vague d’intérêt pour la traduction littéraire automatique, cet article vise à recenser les travaux déjà parus sur le sujet, tout en partageant quelques prises de position sur ce thème. Nous commencerons par présenter les travaux précurseurs qui ont motivé ces différentes recherches, ainsi que les résultats obtenus plus récemment dans divers scénarios et pour diverses paires de langues. Pour terminer ce tour d’horizon, nous exposerons les débuts de nos travaux pour la paire anglaisfrançais, avant d’évoquer les préoccupations et les avantages à prendre en compte dans les discussions autour de cette technologie.

pdf abs
Adaptation de ressources en langue anglaise pour interroger des données tabulaires en français (Adaptation of resources in English to query French tabular data)
Alexis Blandin

Les récents développements des approches d’apprentissage neuronal profond ont permis des avancées très significatives dans le domaine de l’interrogation des systèmes d’information en langage naturel. Cependant, pour le français, les ressources à disposition ne permettent de considérer que les requêtes sur des données stockées sous forme de texte. Or, aujourd’hui la majorité des données utilisées en entreprise sont stockées sous forme tabulaire. Il est donc intéressant d’évaluer si les ressources anglophones associées (jeux de données tabulaires et modèles) peuvent être adaptées au français tout en conservant de bons résultats.

pdf abs
Enjeux liés à la détection de l’ironie (Challenges of automatic irony detection )
Samuel Laperle

L’ironie verbale est un type de discours difficile à détecter automatiquement. En créant des ponts entre les recherches en linguistique et en informatique sur cette question, il est possible de souligner des caractéristiques importantes permettant de faciliter ce type de tâche. Dans cet article, il sera question du rapport entre la définition de ce phénomène et son adéquation avec l’élaboration de corpus d’entraînement..

pdf abs
Etat de l’art en compression multi-phrases pour la synthèse de documents (State-of-the-art of multi-sentence compression for document summarization)
Kévin Espasa

La compression multi-phrases est utilisée dans différentes tâches de résumé (microblogs, opinions, réunions ou articles de presse). Leur objectif est de proposer une reformulation compressée et grammaticalement correcte des phrases sources tout en gardant les faits principaux. Dans cet article, nous présentons l’état de l’art de la compression multi-phrases en mettant en avant les différents corpus et outils à disposition. Nous axons notre analyse principalement sur la qualité grammaticale et informative plus que sur le taux de compression.

pdf abs
Modification d’une modèle de liage d’entités nommées end-to-end par l’ajout d’embeddings contextuels (Modifying an end-to-end named entity linking model by adding contextual embeddings )
Valentin Carpentier

Cet article présente les expériences effectuées sur un système de liage d’entités nommées. Cette tâche se découpe en deux principales parties que sont la détection de mentions méritant d’être liées à la base de connaissance et la désambiguïsation qui permet de sélectionner l’entité finale à lier à chaque mention. Deux approches existent pour résoudre cette tâche. Il y a celle de désambiguïsation seule et celle end-to-end qui effectue les deux sous-tâches simultanément. Nous nous sommes intéressés au modèle end-to-end atteignant l’état de l’art. Le cœur de ces expériences était d’exploiter des embeddings contextuels afin d’améliorer les performances. Trois approches ont été testées afin d’intégrer ces embeddings et de remplacer les embeddings de mots. Les différentes versions atteignent au mieux l’état de l’art. L’article présente quelques pistes déjà étudiées expliquant les raisons pour lesquelles les expériences testées ne dépassent pas le modèle initial et ouvrent des possibilités d’amélioration.

pdf abs
Revue de la littérature : entrepôts de données biomédicales et traitement automatique de la langue (Literature review : biomedical data warehouse and natural language processing )
Adrien Bazoge

La quantité de données de santé informatisées ne cesse de croître et ouvre de nouvelles possibilités pour la recherche scientifique. L’accès à ces données passe très souvent par l’utilisation d’entrepôts de données biomédicales, déployés pour cet usage. Parmi les données stockées dans ces entrepôts, on peut trouver des données textuelles, en plus ou moins grande quantité. Le traitement automatique de la langue (TAL) est le domaine de prédilection pour l’exploitation des données textuelles. Cet article propose une revue de la littérature qui s’intéresse, à travers les publications sur PubMed, ACL Anthology et Google Scholar, à l’interaction entre deux thématiques : les entrepôts de données biomédicales et le traitement automatique des langues. Cette revue montre que l’intérêt pour les données de santé et les entrepôts de données biomédicales est en constante croissance dans la littérature. Elle montre également que le TAL devient peu à peu un outil indispensable afin d’exploiter au mieux les entrepôts de données biomédicales.

pdf abs
Traduction Assistée par Ordinateur des Langues des Signes: élaboration d’un premier prototype (Computer-assisted Translation of Sign Languages: elaborating a first prototype)
Marion Kaczmarek | Alix Larroque

La demande pour du contenu traduit en LSF est croissante depuis quelques années, mais l’offre est limitée par le faible nombre de traducteurs professionnels et l’absence d’outils de traduction assistée par ordinateur (TAO) dédiés pour les langues des signes (LS). Cet article s’intéresse à l’élaboration de tels outils. Après avoir étudié les méthodes de travail des traducteurs, nous avons établi un cahier des charges afin de développer un premier logiciel de TAO pour les LS. Nous avons procédé à la conception d’un tel système en développant des prototypes dits de basse fidélité avant d’implémenter une première version de logiciel fonctionnel. Nous établissons les fonctionnalités implémentées à la date de rédaction de cet article, et évoquons les fonctionnalités restant à être implémentées. Après un test du logiciel par les traducteurs professionnels, nous pourrons ensuite procéder à l’évaluation du système, afin d’améliorer son implémentation d’après leurs retours.

pdf abs
Utilisation d’outils de TAL pour la compréhension des spécifications de validation de données (Use of NLP tools for automatic comprehension of data validation specifications)
Arthur Remaud

La validation de données consiste à vérifier formellement la cohérence de données utilisées en entrée de systèmes critiques. L’essentiel du travail des ingénieurs consiste donc à traduire une spécification, écrite en langage naturel, en un ensemble de règles formelles permettant l’automatisation de la vérification. Notre objectif à long terme est d’automatiser complètement le processus de validation de données. Dans cet article, nous présentons une première étape et détaillons les différentes techniques de traitement automatique de la langue que nous avons déployées pour générer un squelette de règle formelle à partir d’une spécification textuelle. La particularité de ces spécifications est qu’elles peuvent contenir beaucoup d’informations implicites qui rendent difficile la tâche de traduction. D’autre part, le fait qu’il n’existe pas de grand corpus d’apprentissage disponible rend difficile l’emploi des méthodes d’apprentissage neuronal profond. Néanmoins des approches plus classiques à base de règles et de représentations symboliques permettent d’apporter un premier élément de réponse.