基于古汉语大语言模型的多任务学习探究

Xinyu Yao, Mengdi Wang, Yuan Gao, Ge Gao, Bo Chen, Xiaobing Zhao


Abstract
"随着大语言模型在多任务学习领域展现强大泛化能力,其在低资源古汉语场景的应用价值亟待探索。本文基于LLaMA3-Chinese-8B利用21GB高质量古汉语语料进行增量预训练,接着进行十项任务微调(包括句读、词性标注、命名实体识别(NER)、事件识别、翻译、词语解释、反向词典、历史人物知识、诗歌赏析、诗歌生成),设计了单任务微调和双任务组合微调两种策略,通过55组实验量化了任务之间的正增益与负增益,首次系统揭示了古汉语多任务学习中的增益关系。实验结果表明,不同任务之间存在协同效应与任务干扰效应,并且具有不对称性。基础类古汉语任务之间表现出更强的协同效应,相比之下,翻译类和生成类任务之间协同效应表现较弱。同时,受双任务设定的影响,不同古汉语任务的稳定性存在明显差异。"
Anthology ID:
2025.ccl-1.20
Volume:
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:
August
Year:
2025
Address:
Jinan, China
Editors:
Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
259–272
Language:
URL:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.20/
DOI:
Bibkey:
Cite (ACL):
Xinyu Yao, Mengdi Wang, Yuan Gao, Ge Gao, Bo Chen, and Xiaobing Zhao. 2025. 基于古汉语大语言模型的多任务学习探究. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 259–272, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):
基于古汉语大语言模型的多任务学习探究 (Yao et al., CCL 2025)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.20.pdf