From Attenuation to Attention: Variational Information Flow Manipulation for Fine-Grained Visual Perception

Jilong Zhu; Yang Feng

From Attenuation to Attention: Variational Information Flow Manipulation for Fine-Grained Visual Perception

Abstract

While Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in general visual understanding, they frequently falter in fine-grained perception tasks that require identifying tiny objects or discerning subtle visual relationships. We attribute this limitation to Visual Attenuation: a phenomenon where sparse fine-grained visual signals are prematurely suppressed or diluted by dominant textual tokens during network propagation, resulting in a “loss of focus” during the deep-level decision-making process. Existing input-centric solutions fail to fundamentally reverse this intrinsic mechanism of information loss. To address this challenge, we propose the Variational Information Flow (VIF) framework. Adopting a probabilistic perspective, VIF leverages a Conditional Variational Autoencoder (CVAE) to model the visual saliency relevant to the question-answer pair as a latent distribution. As a plug-and-play module, VIF can be integrated into existing architectures. Extensive evaluations across diverse benchmarks—covering General VQA, fine-grained perception, and visual grounding—demonstrate that VIF yields competitive improvements over previous methods, validating its effectiveness in enhancing the fine-grained perception of MLLMs. Codes are available at https://github.com/ictnlp/VIF.

Anthology ID:: 2026.findings-acl.927
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 18586–18597
Language:
URL:: https://preview.aclanthology.org/ingest-acl-workshops/2026.findings-acl.927/
DOI:
Bibkey:
Cite (ACL):: Jilong Zhu and Yang Feng. 2026. From Attenuation to Attention: Variational Information Flow Manipulation for Fine-Grained Visual Perception. In Findings of the Association for Computational Linguistics: ACL 2026, pages 18586–18597, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: From Attenuation to Attention: Variational Information Flow Manipulation for Fine-Grained Visual Perception (Zhu & Feng, Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl-workshops/2026.findings-acl.927.pdf
Checklist:: 2026.findings-acl.927.checklist.pdf

PDF Cite Search Checklist Fix data