基于层间知识蒸馏的神经机器翻译(Inter-layer Knowledge Distillation for Neural Machine Translation)

Chang Jin (金畅), Renchong Duan (段仁翀), Nini Xiao (肖妮妮), Xiangyu Duan (段湘煜)


Abstract
神经机器翻译(NMT)通常采用多层神经网络模型结构,随着网络层数的加深,所得到的特征也越来越抽象,但是在现有的神经机器翻译模型中,高层的抽象信息仅在预测分布时被利用。为了更好地利用这些信息,本文提出了层间知识蒸馏,目的在于将高层网络的抽象知识迁移到低层网络,使低层网络能够捕捉更加有用的信息,从而提升整个模型的翻译质量。区别于传统教师模型和学生模型的知识蒸馏,层间知识蒸馏实现的是同一个模型内部不同层之间的知识迁移。通过在中文-英语、英语-罗马尼亚语、德语-英语三个数据集上的实验,结果证明层间蒸馏方法能够有效提升翻译性能,分别在中-英、英-罗、德-英上提升1.19,0.72,1.35的BLEU值,同时也证明有效地利用高层信息能够提高神经网络模型的翻译质量。
Anthology ID:
2021.ccl-1.16
Volume:
Proceedings of the 20th Chinese National Conference on Computational Linguistics
Month:
August
Year:
2021
Address:
Huhhot, China
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
166–175
Language:
Chinese
URL:
https://aclanthology.org/2021.ccl-1.16
DOI:
Bibkey:
Cite (ACL):
Chang Jin, Renchong Duan, Nini Xiao, and Xiangyu Duan. 2021. 基于层间知识蒸馏的神经机器翻译(Inter-layer Knowledge Distillation for Neural Machine Translation). In Proceedings of the 20th Chinese National Conference on Computational Linguistics, pages 166–175, Huhhot, China. Chinese Information Processing Society of China.
Cite (Informal):
基于层间知识蒸馏的神经机器翻译(Inter-layer Knowledge Distillation for Neural Machine Translation) (Jin et al., CCL 2021)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingestion-script-update/2021.ccl-1.16.pdf