S2H-DPO: Hardness-Aware Preference Optimization for Vision–Language Models

Nitish Shukla; Surgan Jandial; Arun Ross

S2H-DPO: Hardness-Aware Preference Optimization for Vision–Language Models

Nitish Shukla, Surgan Jandial, Arun Ross

Abstract

Vision-Language Models (VLMs) have demonstrated remarkable progress in single-image understanding, yet effective reasoning across multiple images remains challenging. We identify a critical capability gap in existing multi-image alignment approaches: current methods focus primarily on localized reasoning with pre-specified image indices (“Look at Image 3 and...”), bypassing the essential skills of global visual search and autonomous cross-image comparison. To address this limitation, we introduce a Simple-to-Hard (S2H) learning framework that systematically constructs multi-image preference data across three hierarchical reasoning levels requiring an increasing level of capabilities: (1) single-image localized reasoning, (2) multi-image localized comparison, and (3) global visual search. Unlike prior work that relies on model-specific attributes, such as hallucinations or attention heuristics, to generate preference pairs, our approach leverages prompt-driven complexity to create chosen/rejected pairs that are applicable across different models. Through extensive evaluations on LLaVA and Qwen-VL models, we show that our diverse multi-image reasoning data significantly enhances multi-image reasoning performance, yielding significant improvements over baseline methods across benchmarks. Importantly, our approach maintains strong single-image reasoning performance while simultaneously strengthening multi-image understanding capabilities, thus advancing the state of the art for holistic visual preference alignment.

Anthology ID:: 2026.findings-acl.1825
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 36612–36623
Language:
URL:: https://preview.aclanthology.org/ingest-acl-workshops/2026.findings-acl.1825/
DOI:
Bibkey:
Cite (ACL):: Nitish Shukla, Surgan Jandial, and Arun Ross. 2026. S2H-DPO: Hardness-Aware Preference Optimization for Vision–Language Models. In Findings of the Association for Computational Linguistics: ACL 2026, pages 36612–36623, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: S2H-DPO: Hardness-Aware Preference Optimization for Vision–Language Models (Shukla et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl-workshops/2026.findings-acl.1825.pdf
Checklist:: 2026.findings-acl.1825.checklist.pdf

PDF Cite Search Checklist Fix data