Tweak to Trust: Assessing the Reliability of Summarization Metrics in Contact Centers via Perturbed Summaries

Kevin Patel; Suraj Agrawal; Ayush Kumar

doi:10.18653/v1/2024.trustnlp-1.14

Tweak to Trust: Assessing the Reliability of Summarization Metrics in Contact Centers via Perturbed Summaries

Abstract

In the dynamic realm of call center communications, the potential of abstractive summarization to transform information condensation is evident. However, evaluating the performance of abstractive summarization systems within contact center domain poses a significant challenge. Traditional evaluation metrics prove inadequate in capturing the multifaceted nature of call center conversations, characterized by diverse topics, emotional nuances, and dynamic contexts. This paper uses domain-specific perturbed summaries to scrutinize the robustness of summarization metrics in the call center domain. Through extensive experiments on call center data, we illustrate how perturbed summaries uncover limitations in existing metrics. We additionally utilize perturbation as data augmentation strategy to train domain-specific metrics. Our findings underscore the potential of perturbed summaries to complement current evaluation techniques, advancing reliable and adaptable summarization solutions in the call center domain.

Anthology ID:: 2024.trustnlp-1.14
Volume:: Proceedings of the 4th Workshop on Trustworthy Natural Language Processing (TrustNLP 2024)
Month:: June
Year:: 2024
Address:: Mexico City, Mexico
Editors:: Anaelia Ovalle, Kai-Wei Chang, Yang Trista Cao, Ninareh Mehrabi, Jieyu Zhao, Aram Galstyan, Jwala Dhamala, Anoop Kumar, Rahul Gupta
Venues:: TrustNLP | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 172–186
Language:
URL:: https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.trustnlp-1.14/
DOI:: 10.18653/v1/2024.trustnlp-1.14
Bibkey:
Cite (ACL):: Kevin Patel, Suraj Agrawal, and Ayush Kumar. 2024. Tweak to Trust: Assessing the Reliability of Summarization Metrics in Contact Centers via Perturbed Summaries. In Proceedings of the 4th Workshop on Trustworthy Natural Language Processing (TrustNLP 2024), pages 172–186, Mexico City, Mexico. Association for Computational Linguistics.
Cite (Informal):: Tweak to Trust: Assessing the Reliability of Summarization Metrics in Contact Centers via Perturbed Summaries (Patel et al., TrustNLP 2024)
Copy Citation:
PDF:: https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.trustnlp-1.14.pdf

PDF Cite Search Fix data