面向对话场景的构式数据集

Xujing Xue, Juncai Li, Xuefeng Su, Peiyuan Yang, Qinghua Chai, Ru Li


Abstract
"大语言模型在多种自然语言处理任务中展现出强大的语义理解能力。现有研究通常基于各类语义解析数据集对大语言模型进行评估,然而,这些数据集难以覆盖对话语料中常见的口语化表达与特定结构表达语义的语言现象,无法有效评估大语言模型在对话场景中的细粒度语义理解能力。为此,本文面向对话语料构建了一个包含2146条语句、1748个构式的中文构式数据集,实现语义信息细粒度表达的同时有效覆盖了现有语义解析评估数据集的缺口。基于该数据集,本文选取了其中部分代表性构式,结合框架语义学理论,提出了构式识别与构式语义理解两项评测任务,以系统评估大语言模型在对话场景中识别构式与理解深层语义的能力。实验结果表明,当前大语言模型在构式识别方面仍存在明显不足;且在缺乏思维链推理的引导下,难以理解构式所承载的深层语义。"
Anthology ID:
2025.ccl-1.38
Volume:
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:
August
Year:
2025
Address:
Jinan, China
Editors:
Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
513–524
Language:
URL:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.38/
DOI:
Bibkey:
Cite (ACL):
Xujing Xue, Juncai Li, Xuefeng Su, Peiyuan Yang, Qinghua Chai, and Ru Li. 2025. 面向对话场景的构式数据集. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 513–524, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):
面向对话场景的构式数据集 (Xue et al., CCL 2025)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.38.pdf