Maocuo San


2021

pdf
藏文文本校对评测集构建(Construction of Tibetan Text Proofreading Evaluation Set)
Maocuo San (三毛措) | Zhijie Cai (才智杰) | Jizaxi Dao (道吉扎西)
Proceedings of the 20th Chinese National Conference on Computational Linguistics

文本校对评测集是拼写检查研究的基础,包括传统文本校对评测集和标准文本校对评测集。传统文本校对评测集是对正确的数据集通过主观经验人工伪造而得到的评测集,是一种常用的文本校对评测方式,但也存在诸多的缺陷。标准文本校对评测集是通过选择研究对象获取可信度强的真实数据集而得到的评测集。本文在分析英、汉文文本校对评测集构建方法的基础上,结合藏文的特点研究了藏文文本校对评测集的构建方法,构建了用于评价藏文文本校对性能的标准文本校对评测集,并统计分析了评测集中的错误类型及分布,以此验证本文构建的标准文本校对评测集的有效性和可用性。

2020

pdf
一种基于相似度的藏文词同现网络构建及特征分析(A Research on Construction and Feature Analysis of Similarity-based Tibetan Word Co-occurrence Networks)
Dongzhou Jiayang (加羊东周) | Zhijie Cai (才智杰) | Zhuoma Cairang (才让卓玛) | Maocuo San (三毛措)
Proceedings of the 19th Chinese National Conference on Computational Linguistics

语言文字是人类智慧和文明的结晶,是经过漫长演化形成的复杂系统。语言同现网络采 用复杂网络技术研究语言的特征,揭示语言文字的内部结构关系。文章分析相似性同 现网络构建模块结构,提出一种基于相似度的藏文词同现网络构建方法,该方法以词 为网络节点,以相似词间连边构造词同现网络。基于相似度藏文词同现网络构建方法, 在大、中、小三类文档上建立了词同现网络,并分析了它们的统计特征,实验数据表明 建立的藏文词同现网络都具有小世界效应和无标度特征。