摘要

基于深度学习的目标检测技术在自动驾驶和机器人视觉领域被广泛应用。针对这项任务,FCOS(fully convolutional one-stage object detection)利用全卷积和无锚框方法实现逐像素目标检测,但原始FCOS仍存在图片特征提取不足,全局特征信息获取不充分和特征融合不理想等问题。因此本研究对FCOS进行改进并应用于图像的多目标检测。首先,本研究使用ResNeSt50代替原始主干网络ResNet50,利用特征图注意力和多路径表示相结合的方式来提高主干网络的特征提取能力。然后,基于多分支空洞卷积构建感受野增强模块(RFEM),以获取更全面的全局上下文信息。最后,在原始FCOS特征融合的基础上,本研究设计了自适应重组特征融合模块(ARFFM),高效的融合了高层特征图的语义信息和低层特征图的细节信息。在PASCAL VOC2007数据集上的实验表明,改进后的FCOS达到了81.2%的平均精度均值(mAP),比原始FCOS算法提升了2.9%,并在大多数类别上表现出先进的性能。同时开展了广泛的消融实验,其中ResNeSt50,RFEM,ARFFM模块分别为基线网络带来了1.2%,2.1%,2.9%的收益,这些改进为小目标及遮挡目标的检测提供了一种新的解决方案。