VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

Ziqi Huang; Ning Yu (于宁); Gordon Chen; Haonan Qiu; Paul Debevec; Ziwei Liu

VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

Ziqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, Ziwei Liu

Abstract

Recent video generation models can produce smooth and visually appealing clips, but they often struggle to synthesize complex dynamics with a coherent chain of consequences. Accurately modeling visual outcomes and state transitions over time remains a core challenge. In contrast, large language and multimodal models (e.g., GPT-4o) exhibit strong visual state reasoning and future prediction capabilities. To bridge these strengths, we introduce VChain, a novel inference-time chain-of-visual-thought framework that injects visual reasoning signals from multimodal models into video generation. Specifically, VChain contains a dedicated pipeline that leverages large multimodal models to generate a sparse set of critical keyframes as snapshots, which are then used to guide the sparse inference-time visual-state adaptation of a pre-trained video generator only at these key moments. Our approach is tuning-efficient, introduces minimal overhead and avoids dense supervision. Extensive experiments on complex, multi-step scenarios show that VChain significantly enhances the quality of generated videos.

Anthology ID:: 2026.findings-acl.12
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 226–250
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.12/
DOI:
Bibkey:
Cite (ACL):: Ziqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, and Ziwei Liu. 2026. VChain: Chain-of-Visual-Thought for Reasoning in Video Generation. In Findings of the Association for Computational Linguistics: ACL 2026, pages 226–250, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: VChain: Chain-of-Visual-Thought for Reasoning in Video Generation (Huang et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.12.pdf
Checklist:: 2026.findings-acl.12.checklist.pdf

PDF Cite Search Checklist Fix data