@inproceedings{grina-kalashnikova-2025-evaluation,
title = "{\'E}valuation de la Robustesse des {LLM} : Proposition d{'}un Cadre M{\'e}thodologique et D{\'e}veloppement d{'}un Benchmark",
author = "Grina, Fares and
Kalashnikova, Natalia",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.13/",
pages = "151--163",
language = "fra",
abstract = "L'{\'e}valuation fiable des grands mod{\`e}les de langage (LLM) demeure un d{\'e}fi. Nous pr{\'e}sentons un framework syst{\'e}matique, bas{\'e} sur des tests de robustesse et une {\'e}valuation hybride. Il g{\'e}n{\`e}re des variantes de benchmarks pour tester la stabilit{\'e} des LLM. Les r{\'e}ponses sont {\'e}valu{\'e}es par une double approche automatique (LLM-as-a-judge et une {\'e}valuation quantitative). Comme contexte applicatif pour ce type d'{\'e}valuation, nous pr{\'e}sentons la cr{\'e}ation et l{'}annotation d{'}un benchmark pour l{'}extraction d{'}information {\`a} partir d{'}appels d{'}offres. Un m{\'e}canisme de d{\'e}tection compare ensuite les {\'e}valuations automatiques ; les d{\'e}saccords importants d{\'e}clenchent une expertise humaine cibl{\'e}e. En agr{\'e}geant les scores automatiques coh{\'e}rents et les jugements humains, notre approche vise {\`a} fournir une mesure de performance et de robustesse plus fiable. Ce processus quantifie {\'e}galement le taux de d{\'e}saccord entre m{\'e}thodes automatiques, offrant le potentiel pour une comparaison plus transparente et {\'e}quitable des LLM."
}
Markdown (Informal)
[Évaluation de la Robustesse des LLM : Proposition d’un Cadre Méthodologique et Développement d’un Benchmark](https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.13/) (Grina & Kalashnikova, JEP/TALN/RECITAL 2025)
ACL