ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling

Jianghao Lin; Yuanyuan Shi; Xin Peng; Renjie Ding; Hairui Wang; Yuxuan Peng; Bizhe Bai; Weixi Song; Fengshuo Bai; Huacan Chai; Weinan Zhang; Fei Huang; Ying Wen

ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling

Jianghao Lin, Yuanyuan Shi, Xin Peng, Renjie Ding, Hairui Wang, Yuxuan Peng, Bizhe Bai, Weixi Song, Fengshuo Bai, Huacan Chai, Weinan Zhang, Fei Huang, Ying Wen

Abstract

Large language models (LLMs) excel at function calling, but inference scaling has been explored mainly for unstructured generation. We propose an inference-scaling framework for structured outputs that combines fine-grained beam search with ToolPRM, a process reward model scoring each intra-call decision (function name and argument filling). We build the first fine-grained intra-call supervision dataset via function masking, rollout collection, and step-level annotation. ToolPRM outperforms outcome and coarse-grained reward models in predictive accuracy and yields consistent test-time gains on multiple function-calling benchmarks. We further show that structured generation follows “explore more but retain less”, since early JSON errors are unrecoverable.

Anthology ID:: 2026.acl-long.855
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 18792–18804
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.855/
DOI:
Bibkey:
Cite (ACL):: Jianghao Lin, Yuanyuan Shi, Xin Peng, Renjie Ding, Hairui Wang, Yuxuan Peng, Bizhe Bai, Weixi Song, Fengshuo Bai, Huacan Chai, Weinan Zhang, Fei Huang, and Ying Wen. 2026. ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 18792–18804, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling (Lin et al., ACL 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.855.pdf
Checklist:: 2026.acl-long.855.checklist.pdf

PDF Cite Search Checklist Fix data