Context Attribution with Multi-Armed Bandit Optimization

Deng Pan; Keerthiram Murugesan; Ting Hua; Nuno Moniz; Nitesh V. Chawla

Context Attribution with Multi-Armed Bandit Optimization

Deng Pan, Keerthiram Murugesan, Ting Hua, Nuno Moniz, Nitesh V. Chawla

Abstract

Understanding which parts of the retrieved context contribute to a large language model’s generated answer is essential for building interpretable and trustworthy retrieval-augmented generation. We propose a novel framework that formulates context attribution as a combinatorial multi-armed bandit problem. We utilize Linear Thompson Sampling to efficiently identify the most influential context segments while minimizing the number of model queries. Our reward function leverages token log-probabilities to measure how well a subset of segments supports the original response, making it applicable to both open-source and black-box API-based models. Unlike SHAP and other perturbation-based methods that sample subsets uniformly, our approach adaptively prioritizes informative subsets based on posterior estimates of segment relevance, reducing computational costs. Experiments on multiple QA benchmarks demonstrate that our method achieves up to 30% reduction in model queries while matching or exceeding the attribution quality of existing approaches.

Anthology ID:: 2026.findings-acl.565
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 11651–11662
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.565/
DOI:
Bibkey:
Cite (ACL):: Deng Pan, Keerthiram Murugesan, Ting Hua, Nuno Moniz, and Nitesh V. Chawla. 2026. Context Attribution with Multi-Armed Bandit Optimization. In Findings of the Association for Computational Linguistics: ACL 2026, pages 11651–11662, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Context Attribution with Multi-Armed Bandit Optimization (Pan et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.565.pdf
Checklist:: 2026.findings-acl.565.checklist.pdf

PDF Cite Search Checklist Fix data