@inproceedings{zanella-baril-2025-la,
title = "La confiance de Mistral-7{B} est-elle justifi{\'e}e ? Une {\'e}valuation en auto-estimation pour les questions biom{\'e}dicales",
author = "Zanella, Laura and
Baril, Ambroise",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-taln.28/",
pages = "467--476",
language = "fra",
abstract = "{\'E}valuer la fiabilit{\'e} des grands mod{\`e}les de langage (LLMs) dans des t{\^a}ches de question-r{\'e}ponse biom{\'e}dicale est essentiel pour leur d{\'e}ploiement en toute s{\'e}curit{\'e} dans des contextes m{\'e}dicaux. Dans cette {\'e}tude, nous examinons si Mistral-7B est capable d{'}estimer avec pr{\'e}cision la confiance qu{'}il accorde {\`a} ses propres r{\'e}ponses, en comparant ses scores de similarit{\'e} auto-attribu{\'e}s {\`a} la similarit{\'e}- cosinus avec des r{\'e}ponses de r{\'e}f{\'e}rence. Nos r{\'e}sultats montrent que Mistral-7B pr{\'e}sente une forte tendance {\`a} la surconfiance, attribuant syst{\'e}matiquement des scores de similarit{\'e} {\'e}lev{\'e}s, m{\^e}me lorsque la qualit{\'e} des r{\'e}ponses varie. L{'}introduction de la g{\'e}n{\'e}ration augment{\'e}e par r{\'e}cup{\'e}ration (RAG) am{\'e}liore la pr{\'e}cision des r{\'e}ponses, comme en t{\'e}moignent les valeurs plus {\'e}lev{\'e}es de similarit{\'e}- cosinus, mais n{'}am{\'e}liore pas significativement la calibration de la confiance. Bien que RAG r{\'e}duise la surconfiance et am{\'e}liore la corr{\'e}lation entre les scores de similarit{\'e} pr{\'e}dits et r{\'e}els, le mod{\`e}le continue de surestimer syst{\'e}matiquement la qualit{\'e} de ses r{\'e}ponses. Ces r{\'e}sultats soulignent la n{\'e}cessit{\'e} de m{\'e}canismes d{'}estimation de confiance plus efficaces, afin d{'}aligner les auto-{\'e}valuations du mod{\`e}le sur la pr{\'e}cision r{\'e}elle de ses r{\'e}ponses. Notre {\'e}tude montre l{'}importance d{'}affiner les techniques de calibration des LLMs pour renforcer leur fiabilit{\'e} dans les applications biom{\'e}dicales."
}
Markdown (Informal)
[La confiance de Mistral-7B est-elle justifiée ? Une évaluation en auto-estimation pour les questions biomédicales](https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-taln.28/) (Zanella & Baril, JEP/TALN/RECITAL 2025)
ACL