摘要
传统的蒸馏学习仅通过大网络对轻量网络进行单向蒸馏,不但难以从轻量网络的学习状态中得到反馈信息,对训练过程进行优化调整,同时还会限制轻量网络的特征表达能力。本文提出结合自身多级注意力上下文信息进行自我学习优化的方法(MAD,Multi Attention Distillation),以自监督的方式使自身成熟的部分约束不成熟部分,即浅层可以从深层中提取有用的上下文信息,让浅层特征学习高层特征的表达,从而提升网络的整体表达能力。使用轻量级网络ERFNet、DeepLabV3在两个不同任务的数据集CULane、VOC上进行验证。实验结果表明,MAD可以在不增加推理时间的前提下,提升网络的特征提取能力,使ERFNet在CULane任务的F1-measure指标提升2.13,DeepLabV3在VOC任务的mIoU指标提升1.5。
- 单位