Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions

Pu Jian; Donglei Yu; Wen Yang; Shuo Ren; Jiajun Zhang

Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions

Pu Jian, Donglei Yu, Wen Yang, Shuo Ren, Jiajun Zhang

Abstract

In visual question answering (VQA) context, users often pose ambiguous questions to visual language models (VLMs) due to varying expression habits. Existing research addresses such ambiguities primarily by rephrasing questions. These approaches neglect the inherently interactive nature of user interactions with VLMs, where ambiguities can be clarified through user feedback. However, research on interactive clarification faces two major challenges: (1) Benchmarks are absent to assess VLMs’ capacity for resolving ambiguities through interaction; (2) VLMs are trained to prefer answering rather than asking, preventing them from seeking clarification. To overcome these challenges, we introduce ClearVQA benchmark, which targets three common categories of ambiguity in VQA context, and encompasses various VQA scenarios. Furthermore, we propose an automated pipeline to generate ambiguity-clarification question pairs, enabling VLMs to ask reasonable clarification questions and generate more accurate and specific answers based on user feedback, as demonstrated by experimental results.

Anthology ID:: 2025.acl-long.182
Volume:: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 3619–3638
Language:
URL:: https://preview.aclanthology.org/ingestion-acl-25/2025.acl-long.182/
DOI:
Bibkey:
Cite (ACL):: Pu Jian, Donglei Yu, Wen Yang, Shuo Ren, and Jiajun Zhang. 2025. Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3619–3638, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions (Jian et al., ACL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingestion-acl-25/2025.acl-long.182.pdf

PDF Cite Search Fix data