摘要
针对现有的知识蒸馏方法的知识量小、知识传递效率低的问题,提出了特征自注意力知识蒸馏。首先分别通过图像旋转和色彩抖动两种方式得到影子数据,将原始数据和影子数据输入网络,并将学生网络特征输入自注意力模块,计算得到自注意力损失以获得影子数据与原始数据间的隐含关系。其次,要求学生模仿教师原始数据和影子数据的输出,计算得到蒸馏损失以得到教师网络中的隐性知识。最后,使用原始数据计算分类任务本身的损失,并基于上述三部分损失来更新学生网络参数。为了验证该方法的有效性和先进性,在广泛用于知识蒸馏基准的数据集CIFAR100上展开实验,并取得优秀结果。
- 单位