摘要

目标检测是计算机视觉领域的基本任务之一,根据标签信息的不同,可分为全监督目标检测、半监督目标检测和弱监督目标检测等。弱监督目标检测旨在仅利用图像级别的类别标记信息训练检测器,从而完成对测试图像中所有目标物体的定位和分类。因能够显著降低数据标记成本,弱监督目标检测愈发受到关注且已取得令人瞩目的进展。本文由弱监督目标检测的研究意义引入,首先介绍了弱监督目标检测的标签设置及问题定义、基于多示例学习的基础框架和面临的局部主导、实例歧义和计算消耗这3大难题,接着按核心网络架构将该领域的典型算法归纳为3大类,分别是基于优化候选框生成的算法、结合图像分割的算法和基于自训练的算法,并分别阐述各类算法的核心贡献。进一步地,本文通过实验在多种评估指标上对比了各类弱监督目标检测算法的检测效果。在VOC2007(visual object classes 2007)数据集中,平均精度均值(mean average precision,mAP)最高的方法为MIST(multiple instance self-training)算法(54.9%),正确定位率(correct localization,CorLoc)最高的方法为SLV(spatial likelihood voting)算法(71.1%)。在VOC2012数据集中,mAP最高的方法为NDI-WSOD(negative deterministic information weakly supervised object detection)算法(53.9%),CorLor最高的方法为P-MIDN(pyramidal multiple instance detection network)算法(73.3%)。在MSCOCO(Microsoft common objects in context)数据集中,在交并比(intersection over union, IoU)阈值为50%时验证集上的平均精度ValAP50最高的方法为P-MIDN(pyramidal multiple instance detection network)(27.4%)。最后探讨了弱监督目标检测未来的研究方向。本文所总结的弱监督目标检测算法框架,对后续研究人员的网络设计、模型探究和优化方向等都具有一定的参考价值。