大语言模型故事理解能力评价数据集(Benchmarking story comprehension ability of large language model)
Yan Guohang (闫国航), Guo Yaxin (郭亚鑫), Tan Hongye (谭红叶), Zhang Hu (张虎)
Abstract
“故事包含大量的社会、物理等常识,同时蕴含深刻的道理,是知识传播、文化传承、价值塑造的重要载体。故事理解是NLP中的一项重要任务。近几年,研究者对大语言模型(LLMs)的语言理解能力进行了很多评估与分析,但由于现有的故事理解数据集大多为答案出现在原文的实体类问题,因此对LLMs故事理解能力的评价与分析非常有限。为此,本文构建了一个寓言故事理解数据集CRMUS,并基于人类故事理解的认知过程:先进行常识推理,然后理解故事寓意,设计了两个任务来评价模型的相应能力。基于CSMUS数据集,我们对多个代表性的LLMs进行了评估,发现:LLMs已经可以较好地理解故事中的常识并进行推理,但在理解故事寓意方面还存在很大提升空间。此外,我们使用项目反应理论(IRT)对数据集进行了质量分析,表明该数据集是高质量的,可以有效地评估LLMs。”- Anthology ID:
- 2024.ccl-1.60
- Volume:
- Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference)
- Month:
- July
- Year:
- 2024
- Address:
- Taiyuan, China
- Editors:
- Maosong Sun, Jiye Liang, Xianpei Han, Zhiyuan Liu, Yulan He
- Venue:
- CCL
- SIG:
- Publisher:
- Chinese Information Processing Society of China
- Note:
- Pages:
- 760–773
- Language:
- Chinese
- URL:
- https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.ccl-1.60/
- DOI:
- Cite (ACL):
- Yan Guohang, Guo Yaxin, Tan Hongye, and Zhang Hu. 2024. 大语言模型故事理解能力评价数据集(Benchmarking story comprehension ability of large language model). In Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference), pages 760–773, Taiyuan, China. Chinese Information Processing Society of China.
- Cite (Informal):
- 大语言模型故事理解能力评价数据集(Benchmarking story comprehension ability of large language model) (Guohang et al., CCL 2024)
- PDF:
- https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.ccl-1.60.pdf