STORYSUMM: Evaluating Faithfulness in Story Summarization

Melanie Subbiah; Faisal Ladhak; Akankshya Mishra; Griffin Thomas Adams; Lydia Chilton; Kathleen McKeown

doi:10.18653/v1/2024.emnlp-main.557

STORYSUMM: Evaluating Faithfulness in Story Summarization

Melanie Subbiah, Faisal Ladhak, Akankshya Mishra, Griffin Thomas Adams, Lydia Chilton, Kathleen McKeown

Abstract

Human evaluation has been the gold standard for checking faithfulness in abstractive summarization. However, with a challenging source domain like narrative, multiple annotators can agree a summary is faithful, while missing details that are obvious errors only once pointed out. We therefore introduce a new dataset, StorySumm, comprising LLM summaries of short stories with localized faithfulness labels and error explanations. This benchmark is for evaluation methods, testing whether a given method can detect challenging inconsistencies. Using this dataset, we first show that any one human annotation protocol is likely to miss inconsistencies, and we advocate for pursuing a range of methods when establishing ground truth for a summarization dataset. We finally test recent automatic metrics and find that none of them achieve more than 70% balanced accuracy on this task, demonstrating that it is a challenging benchmark for future work in faithfulness evaluation.

Anthology ID:: 2024.emnlp-main.557
Volume:: Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing
Month:: November
Year:: 2024
Address:: Miami, Florida, USA
Editors:: Yaser Al-Onaizan, Mohit Bansal, Yun-Nung Chen
Venue:: EMNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 9988–10005
Language:
URL:: https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.emnlp-main.557/
DOI:: 10.18653/v1/2024.emnlp-main.557
Bibkey:
Cite (ACL):: Melanie Subbiah, Faisal Ladhak, Akankshya Mishra, Griffin Thomas Adams, Lydia Chilton, and Kathleen McKeown. 2024. STORYSUMM: Evaluating Faithfulness in Story Summarization. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 9988–10005, Miami, Florida, USA. Association for Computational Linguistics.
Cite (Informal):: STORYSUMM: Evaluating Faithfulness in Story Summarization (Subbiah et al., EMNLP 2024)
Copy Citation:
PDF:: https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.emnlp-main.557.pdf

PDF Cite Search Fix data