摘要

传统知识蒸馏中,若教师、学生模型的参数规模差距过大,会出现学生模型无法学习较大教师模型的负面影响,为了实现在针对BERT的知识蒸馏中获得不同任务上均拥有较好表现的学生模型,深入研究了现有的模型蒸馏方法、不同教师模型的优缺点,提出了一种新型的BERT模型的多教师蒸馏方案,即使用BERT、RoBERTa、XLNET多个拥有BERT结构的教师模型对其进行蒸馏,同时修改了对教师模型中间层知识表征的蒸馏方案,加入了对Transformer层的蒸馏。最后在GLUE中的多个数据集上的实验表明,最终蒸馏实验的结果较为理想,可以保留教师模型95.1%的准确率。

全文