GoViG: Goal-Conditioned Visual Navigation Instruction Generation via Multimodal Reasoning

Fengyi Wu; Yifei Dong; Yilong Dai; Guangyu Chen; Qifeng Wu; Huiting Huang; Hang Wang; Qi Dai; Alexander G. Hauptmann; Zhi-Qi Cheng

GoViG: Goal-Conditioned Visual Navigation Instruction Generation via Multimodal Reasoning

Fengyi Wu, Yifei Dong, Yilong Dai, Guangyu Chen, Qifeng Wu, Huiting Huang, Hang Wang, Qi Dai, Alexander G Hauptmann, Zhi-Qi Cheng

Abstract

We introduce Goal-Conditioned Visual Navigation Instruction Generation (GoViG), a new task that aims to generate contextually coherent navigation instructions solely from egocentric visual observations of initial and goal states. Unlike prior work relying on structured inputs, such as semantic annotations or environmental maps, GoViG exclusively leverages raw egocentric visual data, improving adaptability to unseen and unstructured environments. Our method addresses this task by decomposing it into two interconnected subtasks: (1) navigation visualization, predicting intermediate visual states bridging the initial and goal views; and (2) instruction generation, synthesizing coherent instructions grounded in observed and anticipated visuals. Both subtasks are integrated within an autoregressive multimodal LLM trained with tailored objectives to ensure spatial accuracy and linguistic clarity. Furthermore, we introduce two multimodal reasoning strategies, one-pass and interleaved reasoning, to mimic incremental human navigation cognition. To comprehensively evaluate our method, we propose the R2R-Goal dataset, combining diverse synthetic and real-world trajectories. Empirical results demonstrate significant performance improvements over state-of-the-art methods in BLEU-4 and CIDEr scores along with robust cross-domain generalization. Our project is available at https://github.com/F1y1113/GoViG.

Anthology ID:: 2026.findings-acl.732
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 14899–14920
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.732/
DOI:
Bibkey:
Cite (ACL):: Fengyi Wu, Yifei Dong, Yilong Dai, Guangyu Chen, Qifeng Wu, Huiting Huang, Hang Wang, Qi Dai, Alexander G Hauptmann, and Zhi-Qi Cheng. 2026. GoViG: Goal-Conditioned Visual Navigation Instruction Generation via Multimodal Reasoning. In Findings of the Association for Computational Linguistics: ACL 2026, pages 14899–14920, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: GoViG: Goal-Conditioned Visual Navigation Instruction Generation via Multimodal Reasoning (Wu et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.732.pdf
Checklist:: 2026.findings-acl.732.checklist.pdf

PDF Cite Search Checklist Fix data