@inproceedings{yuanqi-murat-2025-ji,
title = "基于{LLM}与跨语言嵌入的中亚低资源语言平行语料库构建方法",
author = "YuanQi, YuanQi and
Murat, Alim",
editor = "Sun, Maosong and
Duan, Peiyong and
Liu, Zhiyuan and
Xu, Ruifeng and
Sun, Weiwei",
booktitle = "Proceedings of the 24th {C}hina National Conference on Computational Linguistics ({CCL} 2025)",
month = aug,
year = "2025",
address = "Jinan, China",
publisher = "Chinese Information Processing Society of China",
url = "https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.36/",
pages = "488--499",
abstract = "``在{``}一带一路{''}倡议持续推进的背景下,中国与中亚国家交流日益深化,对高质量的跨语言信息处理技术提出了迫切需求。然而,中文与中亚国家语言之间的平行语料库资源极度匮乏,且现有资源质量参差不齐,严重制约了机器翻译、跨语言信息检索、情感分析等下游任务的发展。针对中亚国家低资源语言,本文提出一种融合神经机器翻译(NMT)与跨语言语义匹配的平行语料构建框架。该方法通过定向爬取中亚国家官方渠道的单语新闻数据,利用DeepSeek模型的多语言翻译能力生成伪平行句对,再通过LaBSE 模型获取跨语言句子嵌入向量,基于余弦相似度动态阈值和边距实现噪声过滤。实验表明,该方法在BLEU分数指标上比较传统回译方法提升了0.65,最终构建包含8 万句对的多领域平行语料库,覆盖政治、经济、文化等核心领域,该语料库为提升中亚低资源语言的机器翻译、跨语言信息检索、文本分类等下游任务的生成质量奠定了坚实的基础。''"
}Markdown (Informal)
[基于LLM与跨语言嵌入的中亚低资源语言平行语料库构建方法](https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.36/) (YuanQi & Murat, CCL 2025)
ACL
- YuanQi YuanQi and Alim Murat. 2025. 基于LLM与跨语言嵌入的中亚低资源语言平行语料库构建方法. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 488–499, Jinan, China. Chinese Information Processing Society of China.