ADaPT: Token-Level Decoupling for Efficient Large Reasoning Models

Tingyun li; Zishang Jiang; Jinyi Han; Xinyi Wang; Sihang Jiang; Han Xia; Zhaoqian Dai; Ma Shuguang; Fei Yu; Jiaqing Liang; Yanghua Xiao

ADaPT: Token-Level Decoupling for Efficient Large Reasoning Models

Tingyun li, Zishang Jiang, Jinyi Han, Xinyi Wang, Sihang Jiang, Han Xia, Zhaoqian Dai, Ma Shuguang, Fei Yu, Jiaqing Liang, Yanghua Xiao

Abstract

Large reasoning models rely on long chain-of-thought to achieve strong performance, but applying such reasoning uniformly incurs high computational cost. Existing efficiency-oriented methods attempt to shorten or mix reasoning strategies, yet often degrade reasoning capability. We identify the root cause as sequence-level coupling between efficiency incentives and correctness optimization, which implicitly penalizes long but correct reasoning trajectories. To address this issue, we propose Adaptive Dual-Process Thinking (ADaPT), a token-level dual-process framework that explicitly decouples efficiency and correctness signals during training. ADaPT introduces a mode-selection token to control fast and slow reasoning, applying efficiency-related rewards exclusively to this token to avoid penalizing correct long reasoning while encouraging efficiency when appropriate. Moreover, ADaPT enables precise and continuous control over the efficiency–performance trade-off at inference time: by adjusting the generation probability of the mode-selection token, a single trained model can smoothly move along the efficiency–performance Pareto frontier. Extensive experiments demonstrate that ADaPT significantly reduces inference cost while maintaining strong reasoning performance across multiple benchmarks.

Anthology ID:: 2026.findings-acl.165
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 3355–3369
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.165/
DOI:
Bibkey:
Cite (ACL):: Tingyun li, Zishang Jiang, Jinyi Han, Xinyi Wang, Sihang Jiang, Han Xia, Zhaoqian Dai, Ma Shuguang, Fei Yu, Jiaqing Liang, and Yanghua Xiao. 2026. ADaPT: Token-Level Decoupling for Efficient Large Reasoning Models. In Findings of the Association for Computational Linguistics: ACL 2026, pages 3355–3369, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: ADaPT: Token-Level Decoupling for Efficient Large Reasoning Models (li et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.165.pdf
Checklist:: 2026.findings-acl.165.checklist.pdf

PDF Cite Search Checklist Fix data