基于层间知识蒸馏的神经机器翻译(Inter-layer Knowledge Distillation for Neural Machine Translation)

Chang Jin (金畅); Renchong Duan (段仁翀); Nini Xiao (肖妮妮); Xiangyu Duan

基于层间知识蒸馏的神经机器翻译(Inter-layer Knowledge Distillation for Neural Machine Translation)

Chang Jin (金畅), Renchong Duan (段仁翀), Nini Xiao (肖妮妮), Xiangyu Duan (段湘煜)

Abstract

神经机器翻译(NMT)通常采用多层神经网络模型结构,随着网络层数的加深,所得到的特征也越来越抽象,但是在现有的神经机器翻译模型中,高层的抽象信息仅在预测分布时被利用。为了更好地利用这些信息,本文提出了层间知识蒸馏,目的在于将高层网络的抽象知识迁移到低层网络,使低层网络能够捕捉更加有用的信息,从而提升整个模型的翻译质量。区别于传统教师模型和学生模型的知识蒸馏,层间知识蒸馏实现的是同一个模型内部不同层之间的知识迁移。通过在中文-英语、英语-罗马尼亚语、德语-英语三个数据集上的实验,结果证明层间蒸馏方法能够有效提升翻译性能,分别在中-英、英-罗、德-英上提升1.19,0.72,1.35的BLEU值,同时也证明有效地利用高层信息能够提高神经网络模型的翻译质量。

Anthology ID:: 2021.ccl-1.16
Volume:: Proceedings of the 20th Chinese National Conference on Computational Linguistics
Month:: August
Year:: 2021
Address:: Huhhot, China
Venue:: CCL
SIG:
Publisher:: Chinese Information Processing Society of China
Note:
Pages:: 166–175
Language:: Chinese
URL:: https://aclanthology.org/2021.ccl-1.16
DOI:
Bibkey:
Cite (ACL):: Chang Jin, Renchong Duan, Nini Xiao, and Xiangyu Duan. 2021. 基于层间知识蒸馏的神经机器翻译(Inter-layer Knowledge Distillation for Neural Machine Translation). In Proceedings of the 20th Chinese National Conference on Computational Linguistics, pages 166–175, Huhhot, China. Chinese Information Processing Society of China.
Cite (Informal):: 基于层间知识蒸馏的神经机器翻译(Inter-layer Knowledge Distillation for Neural Machine Translation) (Jin et al., CCL 2021)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingestion-script-update/2021.ccl-1.16.pdf

PDF Search