基于LLM与跨语言嵌入的中亚低资源语言平行语料库构建方法

YuanQi YuanQi, Alim Murat


Abstract
"在“一带一路”倡议持续推进的背景下,中国与中亚国家交流日益深化,对高质量的跨语言信息处理技术提出了迫切需求。然而,中文与中亚国家语言之间的平行语料库资源极度匮乏,且现有资源质量参差不齐,严重制约了机器翻译、跨语言信息检索、情感分析等下游任务的发展。针对中亚国家低资源语言,本文提出一种融合神经机器翻译(NMT)与跨语言语义匹配的平行语料构建框架。该方法通过定向爬取中亚国家官方渠道的单语新闻数据,利用DeepSeek模型的多语言翻译能力生成伪平行句对,再通过LaBSE 模型获取跨语言句子嵌入向量,基于余弦相似度动态阈值和边距实现噪声过滤。实验表明,该方法在BLEU分数指标上比较传统回译方法提升了0.65,最终构建包含8 万句对的多领域平行语料库,覆盖政治、经济、文化等核心领域,该语料库为提升中亚低资源语言的机器翻译、跨语言信息检索、文本分类等下游任务的生成质量奠定了坚实的基础。"
Anthology ID:
2025.ccl-1.36
Volume:
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:
August
Year:
2025
Address:
Jinan, China
Editors:
Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
488–499
Language:
URL:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.36/
DOI:
Bibkey:
Cite (ACL):
YuanQi YuanQi and Alim Murat. 2025. 基于LLM与跨语言嵌入的中亚低资源语言平行语料库构建方法. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 488–499, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):
基于LLM与跨语言嵌入的中亚低资源语言平行语料库构建方法 (YuanQi & Murat, CCL 2025)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.36.pdf