摘要

传统目标检测网络如Fast R-CNN、ReseNet等在下采样提取图像特征的过程中,损失了大量的空间位置信息表征,存在对较小目标检测效果差的问题。在保留空间位置信息的基础上,提出了一种非局部稀疏关注的级联残差高分辨率网络(cascaded residual high resolution network)。该网络架构从一个高分辨率的子网络开始,逐步增加从高到低分辨率的子网络,形成更多的阶段,将多个分辨率的子网络并行连接,使用级联残差模块(cascaded residual module,CrModule)进行同分辨率特征流间的特征提取;利用多尺度特征图融合,使得每个从高到低分辨率的表示反复地从其他并行表示接收信息,产生丰富语义表征和空间位置表征的高分辨率表示;引入NLSA(nonlocal sparse attention)算法实现深层网络特征块超分重构,挖掘不同尺度相同物体间的结构关联,提高较小物体的特征表示,使之与大物体特征类似,提升较小目标的特征可学习性。在VOC2007数据集的广泛评估表明,将CrHRnet作为YOLOv4的主干特征提取网络,能有效提高目标检测的准确率;CrHRnet-YOLOv4测试mAP(mean average precision)比YOLOv4、YOLOv5_s、YOLOv5_m分别高出1.8、9.5、3.4个百分点,在相同的设备下检测单张图片的FPs较YOLOv4网络提升了30%。