@inproceedings{herserant-guigue-2025-allsummedup,
title = "{A}ll{S}ummed{U}p : un framework open-source pour comparer les m{\'e}triques d'{\'e}valuation de r{\'e}sum{\'e}",
author = "Herserant, Tanguy and
Guigue, Vincent",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.2/",
pages = "11--21",
language = "fra",
abstract = "Cet article examine les d{\'e}fis de reproductibilit{\'e} dans l'{\'e}valuation automatique des r{\'e}sum{\'e}s de textes. {\`A} partir d{'}exp{\'e}riences men{\'e}es sur six m{\'e}triques repr{\'e}sentatives allant de m{\'e}thodes classiques comme ROUGE {\`a} des approches r{\'e}centes bas{\'e}es sur les LLM (G-Eval, SEval-Ex), nous mettons en {\'e}vidence des {\'e}carts notables entre les performances rapport{\'e}es dans la litt{\'e}rature et celles observ{\'e}es dans notre cadre exp{\'e}rimental. Nous proposons un framework unifi{\'e} et open-source, appliqu{\'e} au jeu de donn{\'e}es SummEval et ouvert {\`a} de futurs jeux de donn{\'e}es, facilitant une comparaison {\'e}quitable et transparente des m{\'e}triques. Nos r{\'e}sultats r{\'e}v{\`e}lent un compromis structurel : les m{\'e}triques les mieux align{\'e}es avec les jugements humains sont aussi les plus co{\^u}teuses en calculs et les moins stables. Au-del{\`a} de cette analyse comparative, notre {\'e}tude met en garde contre l{'}utilisation croissante des LLM dans l'{\'e}valuation, en soulignant leur nature stochastique, leur d{\'e}pendance technique et leur faible reproductibilit{\'e}."
}
Markdown (Informal)
[AllSummedUp : un framework open-source pour comparer les métriques d’évaluation de résumé](https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.2/) (Herserant & Guigue, JEP/TALN/RECITAL 2025)
ACL