历时演变视角下的古汉语分词:时期嵌入与大规模语料库的应用

Yonghong Ke (柯永红)

历时演变视角下的古汉语分词:时期嵌入与大规模语料库的应用

Abstract

"古汉语自动分词是古籍数字化和智能化处理的关键环节,但古汉语在数千年演变过程中呈现出显著的历时性差异,对构建通用的分词模型构成了严峻挑战。为应对这一挑战,本研究构建了一个覆盖上古、中古及近代三个主要历史时期的大规模古汉语分词标注语料库,在此基础上,本文提出了一种基于时期嵌入(Period Embedding)的古汉语历时分词模型‘RoBERTa-PeriodEmb-Fusion-CRF‘ 。该模型以预训练语言模型‘roberta-classical-chinese-large-char‘ 为骨干,通过引入可学习的时期向量来感知文本的时代背景,并设计了非线性融合层以有效整合时期信息与上下文语义表示,最后结合条件随机场(CRF)进行序列解码。在构建的历时语料库上的大量实验结果表明,与不包含时期信息的强基线模型相比,本文提出的模型在整体分词性能(F1值达到0.9505)以及跨时期文本的适应性上均取得了显著提升。本研究不仅验证了显式建模时期信息对于提升古汉语分词效能的重要性,也为构建高性能、通用的古汉语处理工具提供了有益的思路和数据支持。"

Anthology ID:: 2025.ccl-1.49
Volume:: Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:: August
Year:: 2025
Address:: Jinan, China
Editors:: Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:: CCL
SIG:
Publisher:: Chinese Information Processing Society of China
Note:
Pages:: 651–665
Language:
URL:: https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.49/
DOI:
Bibkey:
Cite (ACL):: Yonghong Ke. 2025. 历时演变视角下的古汉语分词:时期嵌入与大规模语料库的应用. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 651–665, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):: 历时演变视角下的古汉语分词:时期嵌入与大规模语料库的应用 (Ke, CCL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.49.pdf

PDF Cite Search Fix data