Actes de la 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues

Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier (Editors)

Anthology ID:: 2024.jeptalnrecital-recital
Month:: 7
Year:: 2024
Address:: Toulouse, France
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA and AFPC
URL:: https://aclanthology.org/2024.jeptalnrecital-recital
DOI:
Bib Export formats:: BibTeX

pdf bib abs
An evaluation of current benchmarking strategies for French biomedical language models
Felix Herron

We describe the current state of benchmarking for French language biomedical natural language processing (NLP). We note two important criteria in biomedical benchmarking: first, that a biomedical benchmark clearly simulate a specific use cases, in order to offer a useful evaluation of a biomedical model’s real life applicability. Second: that a biomedical benchmark be created in collaboration with biomedical professionals. We note that many biomedical benchmarks, particularly in French, do not adhere to these criteria; however, we highlight other biomedical benchmarks which adhere better to those criteria. Furthermore, we evaluate some of the most common French biomedical benchmarks on an array of models and empirically support the necessity of domain-specific and language-specific pre-training for natural language understanding (NLU) tasks. We show that some popular French biomedical language models perform poorly and/or inconsistently on important biomedical tasks. Finally, we advocate for an increase in publicly available, clinically targeted French biomedical NLU benchmarks.

pdf bib abs
Analyse sémantique du corpus des Cahiers citoyens
Sami Guembour

Cet article présente une recherche originale qui se concentre sur une analyse sémantique du corpus des Cahiers citoyens, qui regroupe les contributions et les doléances des citoyens français déposées au niveau des mairies dans le cadre du Grand Débat National. L’article offre un état de l’art complet sur les divers travaux réalisés sur ce corpus et vise à obtenir une compréhension approfondie des thèmes émergents et des préoccupations citoyennes dans les différentes régions. Plusieurs hypothèses concernant ces travaux ont été émises, et différentes méthodes ont été proposées pour répondre à ces hypothèses, de la segmentation et du pré-traitement du corpus au calcul des vecteurs de plongement des phrases à l’aide de modèles de langues pré-entraînés, aboutissant au clustering de ces vecteurs pour construire des regroupements en fonction des problématiques abordées.

pdf abs
Annotation de la continuité référentielle dans un corpus scolaire – premiers résultats
Martina Barletta

La recherche Scolinter s’intéresse à l’étude des compétences en écriture des élèves de l’école primaire en France, en Italie et en Espagne. Le corpus éponyme se présente comme un large corpus longitudinal d’écrits d’élèves comparables dans les trois langues (Ponton et al., 2021). Il s’agit dans cette recherche de créer un outillage TAL applicable à ce type de corpus pour assister les chercheurs dans la description linguistique des phénomènes qui relèvent de la cohésion et de la cohérence textuelle, en particulier de la continuité référentielle. La première étape de cette recherche a consisté dans la conception d’un modèle et dans le choix d’un format d’annotation répondant à ces objectifs. Cette contribution fera tout d’abord un état des recherches sur l’annotation en anaphore, coréférence et continuité référentielle avant de présenter les spécificités du corpus Scolinter et de proposer des pistes méthodologiques pour la suite du travail.

pdf abs
État de l’art des méthodes de génération automatique de listes de lectures
Julien Aubert-Béduchaud

L’augmentation croissante du volume d’articles scientifique rend difficile la montée en compétence des chercheurs sur un domaine de recherche ciblé. Pour faciliter l’accès à ces articles, diverses approches et tâches en recherche d’information ont été développées ces dernières années. Parmi elles, la tâche de génération automatique de listes de lecture a été récemment étudiée dans la littérature.Elle consiste en la génération d’une liste ordonnée d’articles scientifiques couvrant un domaine de recherche spécifique. Plusieurs travaux ont exploré différents aspects de cette tâche, proposant des jeux de données et des méthodologies d’évaluation variées pour apporter des solutions à ce problème.Dans cet article, nous présentons un état de l’art des principales approches de génération de listes de lecture, incluant les données, méthodes, et métriques d’évaluation

pdf abs
Évaluation de mesures d’accord sur des structures relationnelles par la dégradation contrôlée d’annotations
Antoine Boiteau

Les mesures d’accord inter-annotateurs sont essentielles pour évaluer la qualité des annotations humaines sur les corpus. Dans le cadre des structures relationnelles, la question de la qualité et de l’interprétabilité de ces mesures reste cependant ouverte. Cet article présente l’adaptation d’un outil déjà utilisé pour d’autres paradigmes d’annotation dont le but est de générer de manière contrôlée des annotations artificielles erronées. Les annotations obtenues sont fournies à des mesures d’accord adaptées aux structures relationnelles, permettant l’identification des comportements des mesures ainsi que les différences entre elles.

pdf abs
Géométrie des vecteurs de tâches pour l’association et la combinaison de modèles
Loic Fosse

Les adaptations de rang faible (LoRa) sont devenues un standard pour adapter des modèles à un faible coût. Elles sont de plus en plus utilisées que ce soit en traitement du langage ou des images. Plusieurs études utilisent ces adaptations et cherchent à les combiner {}it a posteriori de manière à enrichir de manière additive les propriétés d’un modèle. Ces combinaisons suggèrent alors que nous pouvons associer les modèles dans l’espace des paramètres et que nous pouvons donner un sens à cela. Cette propriété n’est que très peu vérifiée dans la pratique et nous proposons ici plusieurs métriques visant à caractériser l’association entre les modèles dans l’espace des paramètres. Nous montrons finalement que nous pouvons corréler ces métriques avec les pertes de performance des modèles lorsque nous réalisons leurs combinaisons.

pdf abs
TAL et analyse de l’activité en ergonomie : extraction d’informations spécialisées dans des transcriptions d’entretiens
Andréa Blivet

L’ergonomie du travail est une discipline qui étudie les conditions de travail des individus. Son application se traduit, entre autres, par la réalisation d’entretiens d’analyse de l’activité qui ont pour objectif de faire émerger les impacts négatifs de la situation de travail sur la santé physique et morale des travailleurs. Notre étude consiste en la mise en place d’un système d’extraction automatique des informations relatives à ces impacts dans les transcriptions des entretiens réalisés. Ce système se fonde sur une approche hybride, associant ressources terminologiques et calcul de similarité contextuelle.