Evaluating Robustness of LLMs to Numerical Variations in Mathematical Reasoning

Yuli Yang; Hiroaki Yamada; Takenobu Tokunaga

Evaluating Robustness of LLMs to Numerical Variations in Mathematical Reasoning

Yuli Yang, Hiroaki Yamada, Takenobu Tokunaga

Abstract

Evaluating an LLM’s robustness against numerical perturbation is a good way to know if the LLM actually performs reasoning or just replicates patterns learned. We propose a novel method to augment math word problems (MWPs), producing numerical variations at a large scale utilizing templates. We also propose an automated error classification framework for scalable error analysis, distinguishing calculation errors from reasoning errors. Our experiments using the methods show LLMs are weak against numerical variations, suggesting they are not fully capable of generating valid reasoning steps, often failing in arithmetic operations.

Anthology ID:: 2025.insights-1.16
Volume:: The Sixth Workshop on Insights from Negative Results in NLP
Month:: May
Year:: 2025
Address:: Albuquerque, New Mexico
Editors:: Aleksandr Drozd, João Sedoc, Shabnam Tafreshi, Arjun Akula, Raphael Shu
Venues:: insights | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 171–180
Language:
URL:: https://preview.aclanthology.org/Ingest-2025-COMPUTEL/2025.insights-1.16/
DOI:
Bibkey:
Cite (ACL):: Yuli Yang, Hiroaki Yamada, and Takenobu Tokunaga. 2025. Evaluating Robustness of LLMs to Numerical Variations in Mathematical Reasoning. In The Sixth Workshop on Insights from Negative Results in NLP, pages 171–180, Albuquerque, New Mexico. Association for Computational Linguistics.
Cite (Informal):: Evaluating Robustness of LLMs to Numerical Variations in Mathematical Reasoning (Yang et al., insights 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/Ingest-2025-COMPUTEL/2025.insights-1.16.pdf

PDF Cite Search Fix data