Document Overlap Is Not Evidence Continuity: Measuring Retrieval Jitter in Citation-Based RAG Evaluation

Punitha Ponnuraj

Document Overlap Is Not Evidence Continuity: Measuring Retrieval Jitter in Citation-Based RAG Evaluation

Abstract

RAG evaluations often rely on citations or retrieved evidence traces for correctness checks, provenance claims, and audits, implicitly assuming that evidence remains reproducible under routine retrieval settings. We test this assumption in a controlled diagnostic study where queries, embeddings, and decoding are fixed while retrieval depth, chunk size, and overlap vary. We call the resulting change in attributed evidence retrieval jitter and measure evidence identity at two levels: document (doc_id) and exact cited span (doc_id, span_hash). Across BEIR ArguAna and SciFact, we observe a consistent Stability Gap: document overlap remains moderate while span overlap often collapses, including many cases of total span turnover despite non-empty retrieval. We interpret span-level instability as a diagnostic of exact evidence-trace reproducibility, not semantic equivalence. These findings motivate reporting stability diagnostics alongside citation-based evaluation metrics for more reproducible evaluation practice.

Anthology ID:: 2026.evaleval-1.35
Volume:: Proceedings of the Workshop on Evaluating Evaluations (EvalEval)
Month:: July
Year:: 2026
Address:: San Diego, CA
Editors:: Mubashara Akhtar, Jan Batzner, Leshem Choshen, Avijit Ghosh, Usman Gohar, Jennifer Mickel, Ichhya Pant, Zeerak Talat, Michelle Lin
Venues:: EvalEval | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 221–226
Language:
URL:: https://preview.aclanthology.org/ingest-acl-workshops/2026.evaleval-1.35/
DOI:
Bibkey:
Cite (ACL):: Punitha Ponnuraj. 2026. Document Overlap Is Not Evidence Continuity: Measuring Retrieval Jitter in Citation-Based RAG Evaluation. In Proceedings of the Workshop on Evaluating Evaluations (EvalEval), pages 221–226, San Diego, CA. Association for Computational Linguistics.
Cite (Informal):: Document Overlap Is Not Evidence Continuity: Measuring Retrieval Jitter in Citation-Based RAG Evaluation (Ponnuraj, EvalEval 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl-workshops/2026.evaleval-1.35.pdf

PDF Cite Search Fix data