a1: Steep Test-time Scaling Law via Environment Augmented Generation

Lingrui Mei; Shenghua Liu; Yiwei Wang; Baolong Bi; Yuyao Ge; Jun Wan; Yurong Wu; Xueqi Cheng (程学旗)

a1: Steep Test-time Scaling Law via Environment Augmented Generation

Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Yuyao Ge, Jun Wan, Yurong Wu, Xueqi Cheng

Abstract

Large Language Models (LLMs) have made remarkable breakthroughs in reasoning, yet continue to struggle with hallucinations, logical errors, and inability to self-correct during complex multi-step tasks. Current approaches like chain-of-thought prompting offer limited reasoning capabilities that fail when precise step validation is required. We propose Environment Augmented Generation (EAG), a framework that enhances LLM reasoning through: (1) real-time environmental feedback validating each reasoning step, (2) dynamic branch exploration for investigating alternative solution paths when faced with errors, and (3) experience-based learning from successful reasoning trajectories. Unlike existing methods, EAG enables deliberate backtracking and strategic replanning through tight integration of execution feedback with branching exploration. Our a1-32B model achieves state-of-the-art performance among similar-sized models across all benchmarks, matching larger models like o1 on competition mathematics while outperforming comparable models by up to 24.4 percentage points. Analysis reveals EAG’s distinctive scaling pattern: initial token investment in environment interaction yields substantial long-term performance dividends, with advantages amplifying proportionally to task complexity.

Anthology ID:: 2026.findings-acl.1240
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 24761–24786
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1240/
DOI:
Bibkey:
Cite (ACL):: Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Yuyao Ge, Jun Wan, Yurong Wu, and Xueqi Cheng. 2026. a1: Steep Test-time Scaling Law via Environment Augmented Generation. In Findings of the Association for Computational Linguistics: ACL 2026, pages 24761–24786, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: a1: Steep Test-time Scaling Law via Environment Augmented Generation (Mei et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1240.pdf
Checklist:: 2026.findings-acl.1240.checklist.pdf

PDF Cite Search Checklist Fix data