pdf
bib
Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023
Florian Boudin
|
Béatrice Daille
|
Richard Dufour
|
Oumaima El
|
Maël Houbre
|
Léane Jourdan
|
Nihel Kooli
pdf
bib
abs
La pré-annotation automatique de textes cliniques comme support au dialogue avec les experts du domaine lors de la mise au point d’un schéma d’annotation
Virgile Barthet
|
Marie-José Aroulanda
|
Laura Monceaux-Cachard
|
Christine Jacquin
|
Cyril Grouin
|
Johann Gutton
|
Guillaume Hocquet
|
Pascal De Groote
|
Michel Komajda
|
Emmanuel Morin
|
Pierre Zweigenbaum
La pré-annotation automatique de textes est une tâche essentielle qui peut faciliter l’annotationd’un corpus de textes. Dans le contexte de la cardiologie, l’annotation est une tâche complexe quinécessite des connaissances approfondies dans le domaine et une expérience pratique dans le métier.Pré-annoter les textes vise à diminuer le temps de sollicitation des experts, facilitant leur concentrationsur les aspects plus critiques de l’annotation. Nous rapportons ici une expérience de pré-annotationde textes cliniques en cardiologie : nous présentons ses modalités et les observations que nous enretirons sur l’interaction avec les experts du domaine et la mise au point du schéma d’an
pdf
bib
abs
MaTOS: Traduction automatique pour la science ouverte
Maud Bénard
|
Alexandra Mestivier
|
Natalie Kubler
|
Lichao Zhu
|
Rachel Bawden
|
Eric De La Clergerie
|
Laurent Romary
|
Mathilde Huguin
|
Jean-François Nominé
|
Ziqian Peng
|
François Yvon
Cette contribution présente le projet MaTOS (Machine Translation for Open Science), qui vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques entre le français et l’anglais, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. Pour ce faire, MaTOS s’intéresse (a) au recueil de ressources ouvertes pour la TA spécialisée; (b) à la description des marqueurs de cohérence textuelle pour les articles scientifiques; (c) au développement de nouvelles méthodes de traitement multilingue pour les documents; (d) aux métriques mesurant les progrès de la traduction de documents complets.
pdf
abs
Projet NaviTerm : navigation terminologique pour une montée en compétence rapide et personnalisée sur un domaine de recherche
Florian Boudin
|
Richard Dufour
|
Béatrice Daille
Cet article présente le projet NaviTerm dont l’objectif est d’accélérer la montée en compétence des chercheurs sur un domaine de recherche par la création automatique de représentations terminologiques synthétiques et navigables des connaissances scientifiques.
pdf
abs
Annotation d’interactions hôte-microbiote dans des articles scientifiques par similarité sémantique avec une ontologie
Oumaima El Khettari
|
Solen Quiniou
|
Samuel Chaffron
Nous nous intéressons à l’extraction de relations, dans des articles scientifiques, portant sur le microbiome humain. Afin de construire un corpus annoté, nous avons évalué l’utilisation de l’ontologie OHMI pour détecter les relations présentes dans les phrases des articles scientifiques, en calculant la similarité sémantique entre les relations définies dans l’ontologie et les phrases des articles. Le modèle BERT et trois variantes biomédicales sont utilisés pour obtenir les représentations des relations et des phrases. Ces modèles sont comparés sur un corpus construit à partir d’articles scientifiques complets issus de la plateforme ISTEX, dont une sous-partie a été annotée manuellement.
pdf
abs
Quand des Non-Experts Recherchent des Textes Scientifiques Rapport sur l’action CLEF 2023 SimpleText
Liana Ermakova
|
Stéphane Huet
|
Eric Sanjuan
|
Hosein Azarbonyad
|
Olivier Augereau
|
Jaap Kamps
Le grand public a tendance à éviter les sources fiables telles que la littérature scientifique en raison de leur langage complexe et du manque de connaissances nécessaires. Au lieu de cela, il s’appuie sur des sources superficielles, trouvées sur internet ou dans les médias sociaux et qui sont pourtant souvent publiées pour des raisons commerciales ou politiques, plutôt que pour leur valeur informative. La simplification des textes peut-elle contribuer à supprimer certains de ces obstacles à l’accès ? Cet article présente l’action « CLEF 2023 SimpleText » qui aborde les défis techniques et d’évaluation de l’accès à l’information scientifique pour le grand public. Nous fournissons des données réutilisables et des critères de référence pour la simplification des textes scientifiques et encourageons les recherches visant à faciliter à la compréhension des textes complexes.
pdf
abs
Apprentissage de dépendances entre labels pour la classification multi-labels à l’aide de transformeurs
Haytame Fallah
|
Elisabeth Murisasco
|
Emmanuel Bruno
|
Patrice Bellot
Dans cet article, nous proposons des approches pour améliorer les architectures basées sur des transformeurs pour la classification de documents multi-labels. Les dépendances entre les labels sont cruciales dans ce contexte. Notre méthode, appelée DepReg, ajoute un terme de régularisation à la fonction de perte pour encourager le modèle à prédire des labels susceptibles de coexister. Nous introduisons également un nouveau jeu de données nommé “arXiv-ACM”, composé de résumés scientifiques de la bibliothèque numérique arXiv, étiquetés avec les mots-clés ACM correspondants.
pdf
abs
Elaboration d’un corpus d’apprentissage à partir d’articles de recherche en chimie
Bénédicte Goujon
Dans le cadre d’un projet mené en 2021, un objectif consistait à extraire automatiquement des informations à partir d’articles de recherche en chimie des matériaux : des valeurs associées à des propriétés pour différents composants chimiques. Le travail présenté ici décrit les étapes de la construction du corpus textuel d’apprentissage, annoté manuellement par des experts du domaine selon les besoins identifiés dans le projet, pour une utilisation ultérieure par des outils d’extraction d’informations.
pdf
abs
Classification de relation pour la génération de mots-clés absents
Maël Houbre
|
Florian Boudin
|
Béatrice Daille
Les modèles encodeur-décodeur constituent l’état de l’art en génération de mots-clés. Cependant, malgré de nombreuses adaptations de cette architecture, générer des mots-clés absents du texte du document est toujours une tâche difficile. Cette étude montre qu’entraîner au préalable un modèle sur une tâche de classification de relation entre un document et un mot-clé, permet d’améliorer la génération de mots-clés absents.
pdf
abs
Le corpus « Machine Translation » : une exploration diachronique des (méta)données Istex
Mathilde Huguin
|
Sabine Barreaux
Le corpus Machine Translation se compose de publications scientifiques issues du réservoir Istex. Conçu comme un cas d’usage, il permet d’explorer l’histoire de la traduction automatique au travers des métadonnées et des textes intégraux disponibles pour chacun de ses documents. D’une part, les métadonnées permettent d’apporter un premier regard sur le paysage de la traduction automatique grâce à des tableaux de bord bibliométriques. D’autre part, l’utilisation d’outils de fouille de textes sur le texte intégral rend saillantes des informations inaccessibles sans une lecture approfondie des articles. L’exploration du corpus est réalisée grâce à Lodex, logiciel open source dédié à la valorisation de données structurées.
pdf
abs
CASIMIR : un Corpus d’Articles Scientifiques Intégrant les ModIfications et Révisions des auteurs
Léane Jourdan
|
Florian Boudin
|
Richard Dufour
|
Nicolas Hernandez
Écrire un article scientifique est une tâche difficile. L’écriture scientifique étant un genre très codifié, de bonnes compétences d’écriture sont essentielles pour transmettre ses idées et les résultats de ses recherches. Cet article décrit les motivations et les travaux préliminaires de la création du corpus CASIMIR dont l’objectif est d’offrir une ressource sur l’étape de révision du processus d’écriture d’un article scientifique. CASIMIR est un corpus des multiples versions de 26 355 articles scientifiques provenant d’OpenReview accompagné des relectures par les pairs.
pdf
abs
MORFITT : Un corpus multi-labels d’articles scientifiques français dans le domaine biomédical
Yanis Labrak
|
Mickael Rouvier
|
Richard Dufour
Cet article présente MORFITT, le premier corpus multi-labels en français annoté en spécialités dans le domaine médical. MORFITT est composé de 3 624 résumés d’articles scientifiques issus de PubMed, annotés en 12 spécialités pour un total de 5 116 annotations. Nous détaillons le corpus, les expérimentations et les résultats préliminaires obtenus à l’aide d’un classifieur fondé sur le modèle de langage pré-entraîné CamemBERT. Ces résultats préliminaires démontrent la difficulté de la tâche, avec un F-score moyen pondéré de 61,78%.
pdf
abs
La détection de textes générés par des modèles de langue : une tâche complexe? Une étude sur des textes académiques
Vijini Liyanage
|
Davide Buscaldi
L’émergence de modèles de langage très puissants tels que GPT-3 a sensibilisé les chercheurs à la problématique de la détection de textes académiques générés automatiquement, principalement dans un souci de prévention de plagiat. Plusieurs études ont montré que les modèles de détection actuels ont une précision élevée, en donnant l’impression que la tâche soit résolue. Cependant, nous avons observé que les ensembles de données utilisés pour ces expériences contiennent des textes générés automatiquement à partir de modèles pré-entraînés. Une utilisation plus réaliste des modèles de langage consisterait à effectuer un fine-tuning sur un texte écrit par un humain pour compléter les parties manquantes. Ainsi, nous avons constitué un corpus de textes générés de manière plus réaliste et mené des expériences avec plusieurs modèles de classification. Nos résultats montrent que lorsque les ensembles de données sont générés de manière réaliste pour simuler l’utilisation de modèles de langage par les chercheurs, la détection de ces textes devient une tâche assez difficile.
pdf
abs
Construction d’un jeu de données de publications scientifiques pour le TAL et la fouille de textes à partir d’ISTEX
Constant Mathieu
La plateforme ISTEX (https://www.istex.fr/) permet d’accéder à une large base d’archives scientifiques comptant plus de 25 millions de documents de tous les grands domaines scientifiques. Les documents incluent non seulement les métadonnées mais aussi le texte plein, et ont été prétraités de manière homogène pour faciliter leur traitement automatique. Dans cet exposé, nous présenterons une initiative pour créer une dynamique de recherche en TAL et TDM autour de ces données. En particulier, nous présenterons les travaux en cours pour la construction d’un jeu de données dédié au TAL et la fouille de textes.
pdf
abs
What shall we read : the article or the citations? - A case study on scientific language understanding
Aman Sinha
|
Sam Bigeard
|
Marianne Clausel
|
Mathieu Constant
The number of scientific articles is increasing tremendously across all domains to such an extent that it has become hard for researchers to remain up-to-date. Evidently, scientific language understanding systems and Information Extraction (IE) systems, with the advancement of Natural Language Processing (NLP) techniques, are benefiting the needs of users. Although the majority of the practices for building such systems are data-driven, advocating the idea of “The more, the better”. In this work, we revisit the paradigm - questioning what type of data : text (title, abstract) or citations, can have more impact on the performance of scientific language understanding systems.