This is an internal, incomplete preview of a proposed change to the ACL Anthology.
For efficiency reasons, we don't generate MODS or Endnote formats, and the preview may be incomplete in other ways, or contain mistakes.
Do not treat this content as an official publication.
PhilippeMulhem
Fixing paper assignments
Please select all papers that belong to the same person.
Indicate below which author they should be assigned to.
Cet article introduit un nouveau cadre d’évaluation pour les systèmes RAG, en comblant les lacunes des approches précédentes. La première phase consiste à concevoir un ensemble de données avec des parties pertinentes extraites pour chaque exemple, représentant les informations nécessaires pour répondre à une question donnée, et à proposer une métrique d’évaluation pour les systèmes IR basée sur la présence de ces parties dans le contenu récupéré. La deuxième phase explore la relation entre le système de RI et les évaluations RAG globales et utilise cette relation pour prédire les performances globales du RAG à partir des performances du SRI. Cette approche élimine le besoin de réponses coûteuses générées par LLM et d’évaluations ultérieures, réduisant ainsi les coûts et fournissant un cadre d’évaluation plus complet et plus robuste pour les systèmes RAG.
Les systèmes de Génération Augmentée par Récupération (RAG) ont pour objectif d’améliorer les Grands Modèles de Langage (LLM) en intégrant des informations provenant de sources externes pour générer des réponses, mais leur manque de transparence en terme d’explicabilité soulève des préoccupations, particulièrement dans des domaines tels que la santé, la finance ou le droit. Les méthodes par perturbations fournissent une explicabilité post-hoc, avec des RAG considérés comme des boîtes noires, en modifiant systématiquement les entrées ou documents récupérés pour évaluer la stabilité des réponses et l’attribution des sources. Ce document présente un aperçu de l’explicabilité des systèmes RAG, en se concentrant sur les approches basées sur des exemples et des perturbations. Nous proposons une taxonomie des techniques de perturbation à différents niveaux de granularité, montrant comment elles offrent des indicateurs interprétables sur le comportement des modèles
Dans cet article, nous présentons SuperGPQA-HCE-FR, une adaptation française d’un sous-ensemble du benchmark SuperGPQA axé sur les domaines de l’ingénierie hydraulique et du génie civil. Il comprend 285 questions à choix multiples conçues pour évaluer et spécialiser des modèles de langue multilingues de grande taille (LLMs) sur des tâches techniques. La traduction réalisée automatiquement est ensuite évaluée par des experts des domaines. Enfin, nous présentons les premiers résultats sur des modèles Instruct généralistes multilingues en comparant les performances du corpus original en anglais à celles du corpus traduit en français.
Cet article introduit X-RAG-VS , un cadre pour intégrer véracité , subjectivité et explicabilité dans les systèmes RAG , en réponse aux besoins éducatifs. À travers des cas d’usage et l’analyse de modèles existants , nous montrons que ces dimensions restent insuffisamment prises en compte. Nous proposons une approche unifiée pour des réponses plus fiables , nuancées et explicables.
Passage retrieval is crucial in specialized domains where documents are long and complex, such as patents, legal documents, scientific reports, etc. We explore in this paper the integration of Entities and passages in Heterogeneous Attention Graph Models dedicated to passage retrieval. We use the two passage retrieval architectures based on re-ranking proposed in [1]. We experiment our proposal on the TREC CAR Y3 Passage Retrieval Task. The results obtained show an improvement over state-of-the-art techniques and proves the effectiveness of the approach. Our experiments also show the importance of using adequate parameters for such approach.
Cet article présente le corpus de données associé à la première campagne évaluation LongEval dans le cadre de CLEF 2023. L’objectif de cette évaluation est d’étudier comment les systèmes de recherche d’informations réagissent à l’évolution des données qu’ils manipulent (notamment les documents et les requêtes). Nous détaillons les objectifs de la tâche, le processus d’acquisition des données et les mesures d’évaluation utilisées.