控制句长的句子可读性研究:大语言模型驱动的数据集构建与评估

李罗希 李罗希; Wei Li; Yanqiu Shao

控制句长的句子可读性研究:大语言模型驱动的数据集构建与评估

Abstract

"文本可读性评估研究旨在衡量文本对特定读者的理解难度,可以分为文档级和句子级。句长这一因素在句子级的难度分类中起主导作用,现有的句子级研究普遍未能控制该变量,从而掩盖了其他深层语言因素在句子难度中的作用。鉴于此,本文提出构建句长受控的句子难度分级语料库。然而,传统人工标注在构建该数据集上存在效率低、质量难以保证的问题。为解决这个问题,本文提出一种大语言模型驱动的智能受控改写方法,利用生成式人工智能从开放语料中自动筛选内容生成候选句,再通过专家审核来保证质量,最终构建了包含二分类三分类的控制句长句子难度分级语料库。在此数据集上的实验结果显示,传统特征分类模型的准确率在控制句长后显著下降,揭示了传统方法的局限性。大语言模型仍具有高准确率,表明其具备识别句长无关语义难度的能力。"

Anthology ID:: 2025.ccl-1.50
Volume:: Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:: August
Year:: 2025
Address:: Jinan, China
Editors:: Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:: CCL
SIG:
Publisher:: Chinese Information Processing Society of China
Note:
Pages:: 666–683
Language:
URL:: https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.50/
DOI:
Bibkey:
Cite (ACL):: 李罗希李罗希, Wei Li, and Yanqiu Shao. 2025. 控制句长的句子可读性研究:大语言模型驱动的数据集构建与评估. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 666–683, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):: 控制句长的句子可读性研究:大语言模型驱动的数据集构建与评估 (李罗希 et al., CCL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.50.pdf

PDF Cite Search Fix data