Beyond Pedagogical Principles: Multi-Horizon Preference Optimization for Efficient Socratic Tutoring

Xin Shi; Chao Zhang; Yifan Zhu; Xueqiao Zhang; Yawei Luo

Beyond Pedagogical Principles: Multi-Horizon Preference Optimization for Efficient Socratic Tutoring

Xin Shi, Chao Zhang, Yifan Zhu, Xueqiao Zhang, Yawei Luo

Abstract

The development of LLM-based tutor agents faces challenges in simultaneously ensuring adherence to pedagogical principles and achieving optimal pedagogical effectiveness, particularly in dynamic, multi-turn interactions. Existing methods are often constrained by static data or sparse reward signals in online settings. To address this gap, we propose Multi-Horizon Preference Optimization (MHPO), a novel framework that iteratively refines tutor agents using a multi-horizon reward function within a dynamic teacher-student simulation environment. Specifically, this reward function is designed to capture both turn-level pedagogical quality and trajectory-level pedagogical effectiveness, which is estimated via Monte Carlo rollouts. We further investigate two distinct strategies to aggregate these rewards for policy optimization. Our experiments demonstrate that MHPO significantly enhances base model performance, achieving a superior balance between principles and effectiveness compared to various baselines.

Anthology ID:: 2026.acl-long.518
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 11289–11306
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.518/
DOI:
Bibkey:
Cite (ACL):: Xin Shi, Chao Zhang, Yifan Zhu, Xueqiao Zhang, and Yawei Luo. 2026. Beyond Pedagogical Principles: Multi-Horizon Preference Optimization for Efficient Socratic Tutoring. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 11289–11306, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Beyond Pedagogical Principles: Multi-Horizon Preference Optimization for Efficient Socratic Tutoring (Shi et al., ACL 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.518.pdf
Checklist:: 2026.acl-long.518.checklist.pdf

PDF Cite Search Checklist Fix data