AllSummedUp : un framework open-source pour comparer les métriques d’évaluation de résumé

Tanguy Herserant; Vincent Guigue

AllSummedUp : un framework open-source pour comparer les métriques d’évaluation de résumé

Abstract

Cet article examine les défis de reproductibilité dans l’évaluation automatique des résumés de textes. À partir d’expériences menées sur six métriques représentatives allant de méthodes classiques comme ROUGE à des approches récentes basées sur les LLM (G-Eval, SEval-Ex), nous mettons en évidence des écarts notables entre les performances rapportées dans la littérature et celles observées dans notre cadre expérimental. Nous proposons un framework unifié et open-source, appliqué au jeu de données SummEval et ouvert à de futurs jeux de données, facilitant une comparaison équitable et transparente des métriques. Nos résultats révèlent un compromis structurel : les métriques les mieux alignées avec les jugements humains sont aussi les plus coûteuses en calculs et les moins stables. Au-delà de cette analyse comparative, notre étude met en garde contre l’utilisation croissante des LLM dans l’évaluation, en soulignant leur nature stochastique, leur dépendance technique et leur faible reproductibilité.

Anthology ID:: 2025.jeptalnrecital-evalllm.2
Volume:: Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 11–21
Language:: French
URL:: https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.2/
DOI:
Bibkey:
Cite (ACL):: Tanguy Herserant and Vincent Guigue. 2025. AllSummedUp : un framework open-source pour comparer les métriques d’évaluation de résumé. In Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM), pages 11–21, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: AllSummedUp : un framework open-source pour comparer les métriques d’évaluation de résumé (Herserant & Guigue, JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.2.pdf

PDF Cite Search Fix data