控制句长的句子可读性研究:大语言模型驱动的数据集构建与评估

李罗希 李罗希, Wei Li, Yanqiu Shao


Abstract
"文本可读性评估研究旨在衡量文本对特定读者的理解难度,可以分为文档级和句子级。句长这一因素在句子级的难度分类中起主导作用,现有的句子级研究普遍未能控制该变量,从而掩盖了其他深层语言因素在句子难度中的作用。鉴于此,本文提出构建句长受控的句子难度分级语料库。然而,传统人工标注在构建该数据集上存在效率低、质量难以保证的问题。为解决这个问题,本文提出一种大语言模型驱动的智能受控改写方法,利用生成式人工智能从开放语料中自动筛选内容生成候选句,再通过专家审核来保证质量,最终构建了包含二分类三分类的控制句长句子难度分级语料库。在此数据集上的实验结果显示,传统特征分类模型的准确率在控制句长后显著下降,揭示了传统方法的局限性。大语言模型仍具有高准确率,表明其具备识别句长无关语义难度的能力。"
Anthology ID:
2025.ccl-1.50
Volume:
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:
August
Year:
2025
Address:
Jinan, China
Editors:
Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
666–683
Language:
URL:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.50/
DOI:
Bibkey:
Cite (ACL):
李罗希 李罗希, Wei Li, and Yanqiu Shao. 2025. 控制句长的句子可读性研究:大语言模型驱动的数据集构建与评估. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 666–683, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):
控制句长的句子可读性研究:大语言模型驱动的数据集构建与评估 (李罗希 et al., CCL 2025)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.50.pdf