Hierarchical Visual Agent: Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning

Qihua Dong; Ruozhen He; Junwen Chen; Yizhou Wang; Xu Ma; Songyao Jiang; Yun Fu

Hierarchical Visual Agent: Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning

Qihua Dong, Ruozhen He, Junwen Chen, Yizhou Wang, Xu Ma, Songyao Jiang, Yun Fu

Abstract

Advanced chart question answering requires both precise perception of small visual elements and multi-step reasoning across several subplots. While existing MLLMs are strong at understanding single plots, they often struggle with multi-step reasoning across multiple subplots. We propose HierVA, a hierarchical visual agent framework for chart reasoning that iteratively constructs and updates a working context in a joint image–text space. A high-level manager generates plans and maintains a compact context containing only key information, while specialized sub-agents perform reasoning, gather evidence, and return results. In particular, the agent maintains separate visual and textual contexts, using a zoom-in tool to restrict the visual context. Experiments on the chart reasoning benchmarks demonstrate consistent improvements over strong multimodal baselines, and ablation studies verify that hierarchical architecture, limited visual context, and distilled context contribute complementary gains.

Anthology ID:: 2026.findings-acl.1914
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 38390–38401
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1914/
DOI:
Bibkey:
Cite (ACL):: Qihua Dong, Ruozhen He, Junwen Chen, Yizhou Wang, Xu Ma, Songyao Jiang, and Yun Fu. 2026. Hierarchical Visual Agent: Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning. In Findings of the Association for Computational Linguistics: ACL 2026, pages 38390–38401, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Hierarchical Visual Agent: Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning (Dong et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1914.pdf
Checklist:: 2026.findings-acl.1914.checklist.pdf

PDF Cite Search Checklist Fix data