Générer pour mieux tester : vers des datasets diversifiés pour une évaluation fiable des systèmes de Question Answering

Louis Jourdain; Skander Hellal

Générer pour mieux tester : vers des datasets diversifiés pour une évaluation fiable des systèmes de Question Answering

Abstract

L’évaluation des modèles d’IA générative repose sur des datasets contenant des valeurs de référence attendues pour une entrée donnée. Cependant, la constitution de ces jeux de données est un processus complexe et coûteux. Cet article explore la génération automatique de datasets de questions diversifiées pour tester notamment les systèmes de RAG (Retrieval Augmented Generation). Nous proposons un cadre méthodologique combinant modèles de langage à grande échelle (LLMs) et techniques traditionnelles de traitement du langage naturel (NLP) et de data science, incluant les graphes de connaissances, la similarité sémantique voire le topic modeling. L’approche proposée repose sur un système modulaire exploitant diverses sources documentaires et intégrant des mécanismes avancés de filtrage afin de garantir la qualité et la diversité des questions produites.

Anthology ID:: 2025.jeptalnrecital-evalllm.18
Volume:: Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 204–227
Language:: French
URL:: https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.18/
DOI:
Bibkey:
Cite (ACL):: Louis Jourdain and Skander Hellal. 2025. Générer pour mieux tester : vers des datasets diversifiés pour une évaluation fiable des systèmes de Question Answering. In Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM), pages 204–227, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: Générer pour mieux tester : vers des datasets diversifiés pour une évaluation fiable des systèmes de Question Answering (Jourdain & Hellal, JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-evalllm.18.pdf

PDF Cite Search Fix data