摘要

目标检测是计算机视觉领域一项重要的任务,主要目的是对图像中的物体进行分类与定位。卷积神经网络(DCNNs)是近年兴起的目标检测问题的重要研究方法之一,基于强监督的卷积神经网络学习需要大量像素级注释的图像,大量的像素标注成本巨大且非常耗时,尤其对于实际问题具有极大的困难。弱监督学习是指在训练期间只有图像级标签而没有像素级标签,弱监督的标签相较于强监督具有更易获得、标注成本低等优点,但是弱监督图像检测信息不够完整,在进行图像检测时同类别的物体的定位信息容易粘连,使弱监督图像检测具有一定挑战性。针对弱监督存在的问题,提出一种新的两级级联卷积神经网络结构,网络第1级根据训练图像的图像级标签预测目标定位,在原图中生成目标的边界框,并生成裁剪图像,裁剪图输入第2级网络,裁剪图像可能含有原图中目标粘连的区域。第2级网络仅将粘连区域用作训练数据。该网络利用类别激活热度图(CAM)完成定位的可视化。通过The PASCAL VOC 2012数据集进行仿真实验,结果表明,在弱监督条件下,提出的方法得到的分类精度为87. 2%,较同等监督方式和相同设备的分类准确度得以提升,在目标定位的评估中,该方法的召回率增加了近9%,有效解决多目标粘连的问题。

全文