摘要
神经机器翻译(NMT)模型通常具有庞大的参数量,例如,Transformer在词表设为3万时有将近1亿的神经元,模型的参数量越大,模型越难优化,且存储模型的资源需求也越高。该文提出了一种压缩方法,用于将复杂且参数量大的NMT模型压缩为精简参数量小的NMT模型。该文同时提出半知识蒸馏方法和递进式半知识蒸馏方法,其中半知识蒸馏是从参数多、性能好的教师模型中获取半部分的权重作为精简、参数少的学生模型训练的起点;递进式半知识蒸馏方法指运用过一次半知识蒸馏方法压缩以后,再把当前的半知识蒸馏压缩的模型作为新的教师模型,再次运用半知识蒸馏方法得到全压缩模型。在广泛使用的中英和日英数据集上进行实验,结果表明,该方法对NMT系统有积极影响。在日英数据集上,该文方法的最佳性能比基准模型高2.16个BLEU值,比词级别知识蒸馏方法高1.15个BLEU值,并且高于句子级别的知识蒸馏方法0.28个BLEU值。
- 单位