@inproceedings{mallet-etal-2025-repousser,
title = "Repousser les limites des benchmarks actuels pour une {\'e}valuation r{\'e}aliste des {LLM}s en migration de code",
author = "Mallet, Samuel and
El Khoury, Joe and
Egyed-Zsigmond, El{\~o}d",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-taln.41/",
pages = "682--696",
language = "fra",
abstract = "Les grands mod{\`e}les de langage (LLMs) offrent un potentiel important pour la migration de code, mais les benchmarks actuels cr{\'e}ent une illusion de ma{\^i}trise ne se traduisant pas par de bonnes performances sur des projets industriels complexes. Bien que des avanc{\'e}es comme RepoTransBench incluent des t{\^a}ches {\`a} l'{\'e}chelle de d{\'e}p{\^o}ts complets, ces benchmarks restent irr{\'e}alistes : taille de projet trop limit{\'e}e, gestion simplifi{\'e}e des d{\'e}pendances, faible diversit{\'e} technologique et absence de g{\'e}n{\'e}ration ou adaptation automatique des tests. Dans cet article, nous analysons ces limites et nous sugg{\'e}rons de s{'}inspirer d{'}approches existantes dans des contextes monolingues, notamment la gestion des contextes longs et la g{\'e}n{\'e}ration automatique de tests, pour concevoir des benchmarks de migration plus r{\'e}alistes. Notre contribution vise {\`a} encourager la communaut{\'e} {\`a} d{\'e}velopper des {\'e}valuations plus repr{\'e}sentatives des d{\'e}fis industriels."
}
Markdown (Informal)
[Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code](https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-taln.41/) (Mallet et al., JEP/TALN/RECITAL 2025)
ACL