Fares Grina


Fixing paper assignments

  1. Please select all papers that belong to the same person.
  2. Indicate below which author they should be assigned to.
Provide a valid ORCID iD here. This will be used to match future papers to this author.
Provide the name of the school or the university where the author has received or will receive their highest degree (e.g., Ph.D. institution for researchers, or current affiliation for students). This will be used to form the new author page ID, if needed.

TODO: "submit" and "cancel" buttons here


2025

pdf bib
Évaluation de la Robustesse des LLM : Proposition d’un Cadre Méthodologique et Développement d’un Benchmark
Fares Grina | Natalia Kalashnikova
Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)

L’évaluation fiable des grands modèles de langage (LLM) demeure un défi. Nous présentons un framework systématique, basé sur des tests de robustesse et une évaluation hybride. Il génère des variantes de benchmarks pour tester la stabilité des LLM. Les réponses sont évaluées par une double approche automatique (LLM-as-a-judge et une évaluation quantitative). Comme contexte applicatif pour ce type d’évaluation, nous présentons la création et l’annotation d’un benchmark pour l’extraction d’information à partir d’appels d’offres. Un mécanisme de détection compare ensuite les évaluations automatiques ; les désaccords importants déclenchent une expertise humaine ciblée. En agrégeant les scores automatiques cohérents et les jugements humains, notre approche vise à fournir une mesure de performance et de robustesse plus fiable. Ce processus quantifie également le taux de désaccord entre méthodes automatiques, offrant le potentiel pour une comparaison plus transparente et équitable des LLM.