摘要

在目标检测感知任务中,基于Detection Transformer(DETR)的无锚框方法由于不需要复杂的非极大值抑制后处理操作从而受到了广泛的关注。针对DETR使用的残差网络(Residual Network, Res Net)骨干在全局信息提取能力上的不足,文章提出一种基于卷积神经网络(Convolutional Neural Network,CNN)和Transformer混合融合骨干的改进型DETR目标检测方法。模型骨干网络基于Swin Transformer改进,在层级结构上并联多个ConvNext块,完成对局部信息和全局信息特征的融合提取,图像特征与可学习的目标查询进行交叉注意力生成预测框。在COCO2017测试集结果证明,改进型DETR方法能够更有效地融合特征,在平均AP上较Res Net50骨干网络AP提升1.6%,在FPS上较Res Net50骨干网络提升10.7%。