O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Haotian Luo; Haiying He; Yibo Wang; Shiwei Liu; Wei Li; Xiaochun Cao; Dacheng Tao; Naiqiang Tan; Li Shen

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Haotian Luo, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Xiaochun Cao, Dacheng Tao, Naiqiang Tan, Li Shen

Abstract

Recently, long-thought reasoning LLMs, such as OpenAI’s O1, adopt extended reasoning processes similar to how humans ponder over complex problems. This reasoning paradigm significantly enhances the model’s problem-solving abilities and achieves promising results. However, long-thought reasoning process leads to a substantial increase in inference time. A pressing challenge is reducing the inference overhead of long-thought LLMs while ensuring accuracy. In this paper, we identify that long-thought reasoning models struggle to effectively allocate token budgets based on problem difficulty and reasoning redundancies. To address this, we propose Length-Harmonizing Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while maintaining accuracy. This effective fine-tuning method first estimates the LLM’s baseline performance through pre-sampling and then uses RL-style fine-tuning to encourage the model to generate shorter reasoning processes under accuracy constraints. This allows the model to achieve efficient reasoning with lower redundancy while maintaining accuracy. Experiments on various mathematical reasoning benchmarks show that O1-Pruner not only significantly reduces inference overhead but also achieves higher accuracy, providing a novel and promising solution to this challenge.

Anthology ID:: 2026.findings-acl.697
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 14242–14257
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.697/
DOI:
Bibkey:
Cite (ACL):: Haotian Luo, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Xiaochun Cao, Dacheng Tao, Naiqiang Tan, and Li Shen. 2026. O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning. In Findings of the Association for Computational Linguistics: ACL 2026, pages 14242–14257, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning (Luo et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.697.pdf
Checklist:: 2026.findings-acl.697.checklist.pdf

PDF Cite Search Checklist Fix data