Stress Testing Factual Consistency Metrics for Long-Document Summarization

Zain Muhammad Mujahid; Dustin Wright; Isabelle Augenstein

Stress Testing Factual Consistency Metrics for Long-Document Summarization

Zain Muhammad Mujahid, Dustin Wright, Isabelle Augenstein

Abstract

Evaluating the factual consistency of abstractive text summarization remains a significant challenge, particularly for long documents, where conventional metrics struggle with input length limitations and long-range dependencies. In this work, we systematically evaluate the reliability of six widely used reference-free factuality metrics, originally proposed for short-form summarization, in the long-document setting. We probe metric robustness through seven factuality-preserving perturbations applied to summaries, namely paraphrasing, simplification, synonym replacement, logically equivalent negations, vocabulary reduction, compression, and source text insertion, and further analyze their sensitivity to retrieval context and claim information density. Across three long-form benchmark datasets spanning science fiction, legal, and scientific domains, our results reveal that existing short-form metrics produce inconsistent scores for semantically equivalent summaries and exhibit declining reliability for information-dense claims whose content is semantically similar to many parts of the source document. While expanding the retrieval context improves stability in some domains, no metric consistently maintains factual alignment under long-context conditions. Finally, our results highlight concrete directions for improving factuality evaluation, including multi-span reasoning, context-aware calibration, and training on meaning-preserving variations to enhance robustness in long-form summarization.

Anthology ID:: 2026.acl-long.1472
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 31914–31933
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.1472/
DOI:
Bibkey:
Cite (ACL):: Zain Muhammad Mujahid, Dustin Wright, and Isabelle Augenstein. 2026. Stress Testing Factual Consistency Metrics for Long-Document Summarization. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 31914–31933, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Stress Testing Factual Consistency Metrics for Long-Document Summarization (Mujahid et al., ACL 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.1472.pdf
Checklist:: 2026.acl-long.1472.checklist.pdf

PDF Cite Search Checklist Fix data