Abstract
蒙古文文本中存在一个有别于多数其他文字的特别现象──看到的单词字形正确但其内码序列不正确,或者说单词“变形显现字形”序列正确但“名义字符”序列不正确的现象,我们称其为蒙古文的拼写形式多样化现象。本文先定义该现象及相关概念,再通过简单图示、例词拼写形式穷举、新闻语料统计分析和基于整篇文章标注统计等多方式、多角度论证这一现象的事实性和严重性,分析导致这一现象的深层原因并指出拼写形式多样化对蒙古文信息处理和应用方面的严重影响,最后提出通过推广普及录入规范和标准提高用户意识、使用智能输入法避免误录、使用校对纠错工具后纠正、基于生语料的统计学习方法为补充等多途径解决方法。本文对蒙古文标准编码的推广普及具有较好的参考价值。- Anthology ID:
- 2020.ccl-1.45
- Volume:
- Proceedings of the 19th Chinese National Conference on Computational Linguistics
- Month:
- October
- Year:
- 2020
- Address:
- Haikou, China
- Editors:
- Maosong Sun (孙茂松), Sujian Li (李素建), Yue Zhang (张岳), Yang Liu (刘洋)
- Venue:
- CCL
- SIG:
- Publisher:
- Chinese Information Processing Society of China
- Note:
- Pages:
- 491–498
- Language:
- Chinese
- URL:
- https://aclanthology.org/2020.ccl-1.45
- DOI:
- Cite (ACL):
- Shuangcheng Bai and Sile Hu. 2020. 蒙古文拼写形式多样化现象研究(A Study of Spelling Variety of Mongolian). In Proceedings of the 19th Chinese National Conference on Computational Linguistics, pages 491–498, Haikou, China. Chinese Information Processing Society of China.
- Cite (Informal):
- 蒙古文拼写形式多样化现象研究(A Study of Spelling Variety of Mongolian) (Bai & Hu, CCL 2020)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-4/2020.ccl-1.45.pdf