@inproceedings{jourdain-hellal-2025-generer,
title = "G{\'e}n{\'e}rer pour mieux tester : vers des datasets diversifi{\'e}s pour une {\'e}valuation fiable des syst{\`e}mes de Question Answering",
author = "Jourdain, Louis and
Hellal, Skander",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.18/",
pages = "204--227",
language = "fra",
abstract = "L'{\'e}valuation des mod{\`e}les d{'}IA g{\'e}n{\'e}rative repose sur des datasets contenant des valeurs de r{\'e}f{\'e}rence attendues pour une entr{\'e}e donn{\'e}e. Cependant, la constitution de ces jeux de donn{\'e}es est un processus complexe et co{\^u}teux. Cet article explore la g{\'e}n{\'e}ration automatique de datasets de questions diversifi{\'e}es pour tester notamment les syst{\`e}mes de RAG (Retrieval Augmented Generation). Nous proposons un cadre m{\'e}thodologique combinant mod{\`e}les de langage {\`a} grande {\'e}chelle (LLMs) et techniques traditionnelles de traitement du langage naturel (NLP) et de data science, incluant les graphes de connaissances, la similarit{\'e} s{\'e}mantique voire le topic modeling. L{'}approche propos{\'e}e repose sur un syst{\`e}me modulaire exploitant diverses sources documentaires et int{\'e}grant des m{\'e}canismes avanc{\'e}s de filtrage afin de garantir la qualit{\'e} et la diversit{\'e} des questions produites."
}
Markdown (Informal)
[Générer pour mieux tester : vers des datasets diversifiés pour une évaluation fiable des systèmes de Question Answering](https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.18/) (Jourdain & Hellal, JEP/TALN/RECITAL 2025)
ACL