TibLex:一种基于拉丁编码的藏文词表优化策略

更尕多杰 更尕多杰, Yuan Sun


Abstract
"预训练语言模型通过大规模无监督学习在多任务场景展现卓越性能,但其研究多集中于中英文等高资源语言。藏语等低资源语言因数据稀缺及形态复杂(黏着语特性、音节结构多样),导致主流子词分词方法存在语义割裂与形态失配问题,制约模型训练效率与表征质量。为此,本文提出基于拉丁化编码的藏文扩展分词策略TibLex(Tibetan Latinization-based Extended Tokenizer)该方法通过将输入文本进行编码转写,将每个藏文音节根据其字形或发音转换为一个短序列,然后基于编码文本使用子词分词构建词汇表。实验表明,TibLex相较主流分词器具有双重优势:(1)通过拉丁化降维处理,使词表不规则组合减少15%,输入序列长度平均缩短36.10%,显著提升计算效率。(2)音译分词器可将同音异形字编码为相同音译序列并输出一致的分词结果,从而实现对同音错别字的鲁棒性处理。与此同时,基于TibLex训练的预训练模型在下游任务中保持竞争力,验证了该方法在低资源语言场景的有效性。本工作为解决形态复杂语言的分词瓶颈提供了新范式,其编码框架可扩展至蒙古文、梵文等文字系统,为跨语言NLP研究提供技术支撑。"
Anthology ID:
2025.ccl-1.21
Volume:
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:
August
Year:
2025
Address:
Jinan, China
Editors:
Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
273–284
Language:
URL:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.21/
DOI:
Bibkey:
Cite (ACL):
更尕多杰 更尕多杰 and Yuan Sun. 2025. TibLex:一种基于拉丁编码的藏文词表优化策略. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 273–284, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):
TibLex:一种基于拉丁编码的藏文词表优化策略 (更尕多杰 & Sun, CCL 2025)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.21.pdf