DynamicFocalPO: Adaptive Focusing Strategy for Preference Optimization

Shu Zhou; Junan Chen; Rui Ling; Xin Wang; Tao Fan; Hao Wang

DynamicFocalPO: Adaptive Focusing Strategy for Preference Optimization

Shu Zhou, Junan Chen, Rui Ling, Xin Wang, Tao Fan, Hao Wang

Abstract

Recent preference optimization algorithms such as Direct Preference Optimization (DPO) have become prevalent for aligning large language models (LLMs) with human preferences. FocalPO improves upon DPO by introducing a modulating factor that down-weighs misranked preference pairs. However, using a fixed modulating factor throughout training is suboptimal, as the model’s learning capacity evolves during training. We introduce DynamicFocalPO, which employs a dynamic focusing strategy that adapts over the course of training. Inspired by curriculum learning, our method initially focuses on correctly ranked samples to establish a solid foundation, then gradually incorporates harder samples as training progresses. Experiments demonstrate that DynamicFocalPO surpasses both DPO and FocalPO on benchmarks including Alpaca Eval 2.0 and Arena-Hard using Mistral-Base-7B and Llama-3-Instruct-8B. We further provide theoretical analysis showing that the dynamic schedule enables adaptive entropy regularization and selective gradient suppression.

Anthology ID:: 2026.findings-acl.1009
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 20206–20221
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1009/
DOI:
Bibkey:
Cite (ACL):: Shu Zhou, Junan Chen, Rui Ling, Xin Wang, Tao Fan, and Hao Wang. 2026. DynamicFocalPO: Adaptive Focusing Strategy for Preference Optimization. In Findings of the Association for Computational Linguistics: ACL 2026, pages 20206–20221, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: DynamicFocalPO: Adaptive Focusing Strategy for Preference Optimization (Zhou et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1009.pdf
Checklist:: 2026.findings-acl.1009.checklist.pdf

PDF Cite Search Checklist Fix data