VIDA: A Visual Intent-driven Design Assistant for Proactive Multimodal Clarification

Yanshan Liu; Hongbo Zhang; Zhen Sun; Jiaheng Wei; Kaishun Wu

VIDA: A Visual Intent-driven Design Assistant for Proactive Multimodal Clarification

Yanshan Liu, Hongbo Zhang, Zhen Sun, Jiaheng Wei, Kaishun Wu

Abstract

In complex domains like interior design, user requests are often ambiguous and multimodal. Professional designers address this by asking strategic clarification questions based on hierarchical priorities, a capability lacking in current Vision-Language Models (VLMs). When fine-tuned on dialogue data, existing models often exhibit modality forgetting, overfitting to textual patterns while neglecting visual cues and thus producing hallucinated or visually irrelevant questions. To bridge this gap, we introduce VIDA (Visual Intent-driven Design Assistant), an assistant designed to generate proactive, visually grounded, and strategically prioritized clarification questions. Instead of standard fine-tuning, we propose a strategy-aware alignment framework that evolves from imitation learning to value-driven reinforcement. We utilize Group Sequence Policy Optimization to strictly enforce expert protocols, ensuring the model not only mimics fluent speech but also adheres to optimal inquiry strategies. Crucially, we design a novel hierarchical reward mechanism with Dynamic Intent Binding to align the assistant with professional prioritization standards. To facilitate this research, we construct and release InteriorClarify, a multimodal benchmark dataset comprising 1,016 real-world consultation cases annotated with this three-tier intent hierarchy. Extensive experiments demonstrate that VIDA sets a new state-of-the-art, improving the Strategic Alignment Score (SAS) by 20.59% over SFT baselines and effectively restoring visual grounding capabilities lost during standard fine-tuning.

Anthology ID:: 2026.findings-acl.1687
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 33793–33804
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1687/
DOI:
Bibkey:
Cite (ACL):: Yanshan Liu, Hongbo Zhang, Zhen Sun, Jiaheng Wei, and Kaishun Wu. 2026. VIDA: A Visual Intent-driven Design Assistant for Proactive Multimodal Clarification. In Findings of the Association for Computational Linguistics: ACL 2026, pages 33793–33804, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: VIDA: A Visual Intent-driven Design Assistant for Proactive Multimodal Clarification (Liu et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1687.pdf
Checklist:: 2026.findings-acl.1687.checklist.pdf

PDF Cite Search Checklist Fix data