Looking Beyond the One: Operationalizing and Eliciting Visual Ambiguity in VLLMs

Yuchong Chen; Bowei Zou (邹博伟); Yuhan Chen; Yifan Fan; Xinyu Li; Shujun Cao; Yu Hong (洪宇)

Looking Beyond the One: Operationalizing and Eliciting Visual Ambiguity in VLLMs

Yuchong Chen, Bowei Zou, Yuhan Chen, Yifan Fan, Xinyu Li, Shujun Cao, Yu Hong

Abstract

Visual questions are often ambiguous: the same image–question pair may admit multiple valid answers depending on which region is referenced. However, current Visual Question Answering (VQA) systems typically collapse this ambiguity, committing to a single interpretation during decoding and evaluation. In this work, we study visual question ambiguity from a grounded, region-centric perspective. We operationalize ambiguity as the existence of multiple distinct answer-supporting regions in an image, each independently yielding a valid answer. This formulation makes ambiguity observable without requiring exhaustive multi-answer annotations. Based on this definition, we conduct a systematic empirical study of state-of-the-art Visual Large Language Models (VLLMs). We find that, under default decoding, VLLMs consistently under-report ambiguity—even when multiple valid visual groundings are present. Importantly, probing model hidden states reveals that ambiguity-related signals are already encoded in their internal representations, despite not being reliably expressed in outputs. Finally, we show that selectively activating multi-focus answering based on these signals can recover additional valid answers while avoiding excessive hallucination. Together, our results suggest that ambiguity in VQA is not merely an annotation artifact or capability limitation, but a property that VLLMs internally recognize yet often fail to surface under standard decoding assumptions.

Anthology ID:: 2026.acl-long.1115
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 24306–24323
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.1115/
DOI:
Bibkey:
Cite (ACL):: Yuchong Chen, Bowei Zou, Yuhan Chen, Yifan Fan, Xinyu Li, Shujun Cao, and Yu Hong. 2026. Looking Beyond the One: Operationalizing and Eliciting Visual Ambiguity in VLLMs. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 24306–24323, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Looking Beyond the One: Operationalizing and Eliciting Visual Ambiguity in VLLMs (Chen et al., ACL 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.1115.pdf
Checklist:: 2026.acl-long.1115.checklist.pdf

PDF Cite Search Checklist Fix data