摘要
知识蒸馏(KD)从提出到现在已经取得了很大的成功,不过很多蒸馏策略都是把目光放在了中间层的特征,反而忽略了logit蒸馏的可发展性。解耦知识蒸馏(DKD)的提出使得logit蒸馏重回大众视野。不论是知识蒸馏还是解耦知识蒸馏,都是使用了强一致性约束条件从而导致蒸馏效果次优,特别是在教师网络和学生网络架构悬殊时这种现象尤为突出。针对这个问题,提出了基于类间排名关系一致性的方法。该方法保留教师和学生非目标类预测间的关系,利用类间的排名相关性作为知识蒸馏模型中代理损失和评价指标之间的关系,从而进行教师网络与学生网络的关系匹配。该方法把这种较为轻松的关系匹配扩展到解耦知识蒸馏中,并在数据集CIFAR-100和ImageNet-1K进行验证。实验结果表明,该方法对于CIFAR-100的分类准确率达到了77.38%,比基准方法提高了0.93百分点,提高了解耦知识蒸馏图像分类的效果,证明了方法的有效性。同时,对比实验的结果证明该方法更具有竞争力。
- 单位