KurTail : Kurtosis-based LLM Quantization

Mohammad Sadegh Akhondzadeh; Aleksandar Bojchevski; Evangelos Eleftheriou; Martino Dazzi

doi:10.18653/v1/2025.findings-emnlp.943

KurTail : Kurtosis-based LLM Quantization

Mohammad Sadegh Akhondzadeh, Aleksandar Bojchevski, Evangelos Eleftheriou, Martino Dazzi

Abstract

One challenge of quantizing a large language model (LLM) is the presence of outliers. Outliers often make uniform quantization schemes less effective, particularly in extreme cases such as 4-bit quantization. We introduce KurTail, a new post-training quantization (PTQ) scheme that leverages Kurtosis-based rotation to mitigate outliers in the activations of LLMs. Our method optimizes Kurtosis as a measure of tailedness. This approach enables the quantization of weights, activations, and the KV cache in 4 bits. We utilize layer-wise optimization, ensuring memory efficiency. KurTail outperforms existing quantization methods, offering a 13.3% boost in MMLU accuracy and a 15.5% boost in Wiki perplexity compared to QuaRot. It also outperforms SpinQuant with a 2.6% MMLU gain and reduces perplexity by 2.9%, all while reducing the training cost. For comparison, learning the rotation using SpinQuant for Llama3-70B requires at least four NVIDIA H100 80GB GPUs, whereas our method requires only a single GPU, making it more accessible.

Anthology ID:: 2025.findings-emnlp.943
Volume:: Findings of the Association for Computational Linguistics: EMNLP 2025
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 17404–17419
Language:
URL:: https://preview.aclanthology.org/author-page-yu-wang-polytechnic/2025.findings-emnlp.943/
DOI:: 10.18653/v1/2025.findings-emnlp.943
Bibkey:
Cite (ACL):: Mohammad Sadegh Akhondzadeh, Aleksandar Bojchevski, Evangelos Eleftheriou, and Martino Dazzi. 2025. KurTail : Kurtosis-based LLM Quantization. In Findings of the Association for Computational Linguistics: EMNLP 2025, pages 17404–17419, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: KurTail : Kurtosis-based LLM Quantization (Akhondzadeh et al., Findings 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/author-page-yu-wang-polytechnic/2025.findings-emnlp.943.pdf
Checklist:: 2025.findings-emnlp.943.checklist.pdf

PDF Cite Search Checklist Fix data