@inproceedings{perez-etal-2025-evaluation-pedagogique,
title = "{\'E}valuation p{\'e}dagogique du code {\`a} l{'}aide de grands mod{\`e}les de langage. Une {\'e}tude comparative {\`a} grande {\'e}chelle contre les tests unitaires",
author = {Perez, Julien and
Conrad, Anton and
La{\"i}la, Elkoussy},
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.16/",
pages = "188--201",
language = "fra",
abstract = "L'{\'e}valuation automatis{\'e}e en {\'e}ducation par projet pour l{'}apprentissage de la programmation s{'}appuie traditionnellement sur les tests unitaires pour juger les soumissions de code des {\'e}tudiants, mettant l{'}accent sur la correction fonctionnelle. Cependant, ces tests n{\'e}gligent souvent des aspects qualitatifs du code, comme la lisibilit{\'e} ou la modularit{\'e}. Cette {\'e}tude examine le potentiel des grands mod{\`e}les de langage (LLM) pour {\'e}valuer les soumissions de programmation, en comparant leurs r{\'e}sultats {\`a} ceux des tests unitaires. {\`A} partir d{'}un grand ensemble de donn{\'e}es de rendus d'{\'e}tudiants {\`a} une collection de projets de d{\'e}veloppement logiciel, nous appliquons des analyses statistiques, mod{\'e}lisations pr{\'e}dictives, ainsi que plusieurs comparaisons pour {\'e}valuer l{'}efficacit{\'e} des LLMs. Nos r{\'e}sultats mettent en {\'e}vidence une corr{\'e}lation significative entre les {\'e}valuations des LLMs, pour des prompts donn{\'e}s, et les tests unitaires. Les mod{\`e}les pr{\'e}dictifs montrent que les scores des LLMs peuvent {\^e}tre approxim{\'e}s {\`a} partir des r{\'e}sultats des tests unitaires, et les classements d'{\'e}tudiants issus des deux approches sont fortement corr{\'e}l{\'e}s. Ces constats restent robustes m{\^e}me en pr{\'e}sence de bruit inject{\'e} dans les rendus {\'e}tudiants. Ces r{\'e}sultats sugg{\`e}rent que les LLM, en capturant des dimensions suppl{\'e}mentaires de la performance, peuvent enrichir les cadres d'{\'e}valuation {\'e}ducative, offrant une approche totale plus nuanc{\'e}e et compl{\`e}te."
}
Markdown (Informal)
[Évaluation pédagogique du code à l’aide de grands modèles de langage. Une étude comparative à grande échelle contre les tests unitaires](https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.16/) (Perez et al., JEP/TALN/RECITAL 2025)
ACL