Évaluation de la Robustesse des LLM : Proposition d’un Cadre Méthodologique et Développement d’un Benchmark

Fares Grina; Natalia Kalashnikova

Évaluation de la Robustesse des LLM : Proposition d’un Cadre Méthodologique et Développement d’un Benchmark

Abstract

L’évaluation fiable des grands modèles de langage (LLM) demeure un défi. Nous présentons un framework systématique, basé sur des tests de robustesse et une évaluation hybride. Il génère des variantes de benchmarks pour tester la stabilité des LLM. Les réponses sont évaluées par une double approche automatique (LLM-as-a-judge et une évaluation quantitative). Comme contexte applicatif pour ce type d’évaluation, nous présentons la création et l’annotation d’un benchmark pour l’extraction d’information à partir d’appels d’offres. Un mécanisme de détection compare ensuite les évaluations automatiques ; les désaccords importants déclenchent une expertise humaine ciblée. En agrégeant les scores automatiques cohérents et les jugements humains, notre approche vise à fournir une mesure de performance et de robustesse plus fiable. Ce processus quantifie également le taux de désaccord entre méthodes automatiques, offrant le potentiel pour une comparaison plus transparente et équitable des LLM.

Anthology ID:: 2025.jeptalnrecital-evalllm.13
Volume:: Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 151–163
Language:: French
URL:: https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.13/
DOI:
Bibkey:
Cite (ACL):: Fares Grina and Natalia Kalashnikova. 2025. Évaluation de la Robustesse des LLM : Proposition d’un Cadre Méthodologique et Développement d’un Benchmark. In Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM), pages 151–163, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: Évaluation de la Robustesse des LLM : Proposition d’un Cadre Méthodologique et Développement d’un Benchmark (Grina & Kalashnikova, JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.13.pdf

PDF Cite Search Fix data