面向 Transformer 模型的蒙古语语音识别词特征编码方法(Researching of the Mongolian word encoding method based on Transformer Mongolian speech recognition)

Xiaoxu Zhang (张晓旭), Zhiqiang Ma (马志强), Zhiqiang Liu (刘志强), Caijilahu Bao (宝财吉拉呼)


Abstract
“针对 Transformer 模型在蒙古语语音识别任务中无法学习到带有控制符的蒙古语词和语音之间的对应关系,造成模型对蒙古语的不适应问题。提出一种面向 Transformer 模型的蒙古语词编码方法,方法使用蒙古语字母特征与词特征进行混合编码,通过结合蒙古语字母信息使 Transformer 模型能够区分带有控制符的蒙古语词,学习到蒙古语词与语音之间的对应关系。在 IMUT-MC 数据集上,构建 Transformer 模型并进行了词特征编码方法的消融实验和对比实验。消融实验结果表明,词特征编码方法在 HWER、WER、SER 上分别降低了 23.4%、6.9%、2.6%;对比实验结果表明,词特征编码方法领先于所有方法,HWER 和 WER 分别达到 11.8%、19.8%。”
Anthology ID:
2022.ccl-1.30
Volume:
Proceedings of the 21st Chinese National Conference on Computational Linguistics
Month:
October
Year:
2022
Address:
Nanchang, China
Editors:
Maosong Sun (孙茂松), Yang Liu (刘洋), Wanxiang Che (车万翔), Yang Feng (冯洋), Xipeng Qiu (邱锡鹏), Gaoqi Rao (饶高琦), Yubo Chen (陈玉博)
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
333–343
Language:
Chinese
URL:
https://aclanthology.org/2022.ccl-1.30
DOI:
Bibkey:
Cite (ACL):
Xiaoxu Zhang, Zhiqiang Ma, Zhiqiang Liu, and Caijilahu Bao. 2022. 面向 Transformer 模型的蒙古语语音识别词特征编码方法(Researching of the Mongolian word encoding method based on Transformer Mongolian speech recognition). In Proceedings of the 21st Chinese National Conference on Computational Linguistics, pages 333–343, Nanchang, China. Chinese Information Processing Society of China.
Cite (Informal):
面向 Transformer 模型的蒙古语语音识别词特征编码方法(Researching of the Mongolian word encoding method based on Transformer Mongolian speech recognition) (Zhang et al., CCL 2022)
Copy Citation:
PDF:
https://preview.aclanthology.org/nschneid-patch-4/2022.ccl-1.30.pdf