Annotation d’entités cliniques en utilisant les Larges Modèles de Langue

Simon Meoni, Théo Ryffel, Eric De La Clergerie


Abstract
Dans le domaine clinique et dans d’autres domaines spécialisés, les données sont rares du fait de leur caractère confidentiel. Ce manque de données est un problème majeur lors du fine-tuning de modèles de langue.Par ailleurs, les modèles de langue de très grande taille (LLM) ont des performances prometteuses dans le domaine médical. Néanmoins, ils ne peuvent pas être utilisés directement dans les infrastructures des établissements de santé pour des raisons de confidentialité des données. Nous explorons une approche d’annotation des données d’entraînement avec des LLMs pour entraîner des modèles de moins grandes tailles mieux adaptés à notre problématique. Cette méthode donne des résultats prometteurs pour des tâches d’extraction d’information
Anthology ID:
2023.jeptalnrecital-long.15
Volume:
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs
Month:
6
Year:
2023
Address:
Paris, France
Editors:
Christophe Servan, Anne Vilnat
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
190–203
Language:
French
URL:
https://aclanthology.org/2023.jeptalnrecital-long.15
DOI:
Bibkey:
Cite (ACL):
Simon Meoni, Théo Ryffel, and Eric De La Clergerie. 2023. Annotation d’entités cliniques en utilisant les Larges Modèles de Langue. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs, pages 190–203, Paris, France. ATALA.
Cite (Informal):
Annotation d’entités cliniques en utilisant les Larges Modèles de Langue (Meoni et al., JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:
https://preview.aclanthology.org/naacl24-info/2023.jeptalnrecital-long.15.pdf