摘要
现有的跨模态知识蒸馏方法大多只涉及单一的教师-学生网络,不足以有效地获取多维视觉图像信息。为此,提出一种多通道教师-学生知识蒸馏网络模型MTS-DSN,使音频信息在多模态的图像信息中进行一对一学习;引入新的TSA损失函数,更充分地利用教师网络的互补线索,并通过混合专家算法整合单个学生所学的知识。在公开的数据集上对MTS-DSN与其他几种基线方法进行多目标检测任务的比较实验,结果表明MTS-DSN仅通过声音就能有效检测到多个目标对象,且比其他基线方法具有更好的性能。
-
单位重庆大学; 成都航空职业技术学院