Evaluation Pitfalls and Sparsity Limitations in LLM-based Confidence Estimates for Classification

Elena Merdjanovska; Omar Zaidan; Andreas R\"uckl\'e

Evaluation Pitfalls and Sparsity Limitations in LLM-based Confidence Estimates for Classification

Elena Merdjanovska, Omar Zaidan, Andreas R\"uckl\'e

Abstract

Confidence estimation is essential when LLMs are used for classification, indicating when predictions can be trusted. However, common approaches such as verbalization produce extremely sparse outputs. For instance, Qwen3-32B verbalizes only eight unique confidence values on SST-2, with over half being exactly 95%—a pattern we observe consistently across four datasets and two LLMs. Besides limiting practical utility, we show that this sparsity critically affects evaluation: the choice of interpolation in area under the accuracy-rejection curve (AUARC) dramatically alters rankings, with consistency sampling dropping from best to worst under stepwise versus linear interpolation. We advocate for standardizing stepwise interpolation for a fairer comparison. Under such a fair evaluation, we find that weighting verbalized digits by token probabilities—a method we term verbalization logprobs—addresses sparsity and achieves the best AUARC (+2.3 points over vanilla verbalization) without incurring additional inference cost.

Anthology ID:: 2026.findings-acl.1671
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 33424–33435
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1671/
DOI:
Bibkey:
Cite (ACL):: Elena Merdjanovska, Omar Zaidan, and Andreas R\"uckl\'e. 2026. Evaluation Pitfalls and Sparsity Limitations in LLM-based Confidence Estimates for Classification. In Findings of the Association for Computational Linguistics: ACL 2026, pages 33424–33435, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Evaluation Pitfalls and Sparsity Limitations in LLM-based Confidence Estimates for Classification (Merdjanovska et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1671.pdf
Checklist:: 2026.findings-acl.1671.checklist.pdf

PDF Cite Search Checklist Fix data