摘要

针对无人机航拍图像中存在的密集目标、背景复杂、小目标检测困难、图像尺寸大等问题,提出了卷积神经网络(CNN)与Transformer相结合的无人机图像目标检测算法。该算法在YOLOv5网络的基础上结合了Transformer结构打破了CNN感受野的局限性,凭借自注意力机制捕获全局的依赖关系。同时采用了大尺度的特征图,使用加权双向特征金字塔网络(BiFPN)增强了特征的传播与重用,让网络对小目标的检测能力大大提高。最后使用数据降维与滑动窗口的方法减少网络的内存消耗与计算量。在VisDrone无人机数据集上的实验结果表明所提算法在满足实时性的基础上,平均精确率比YOLOv5网络提高约7%,达到了最先进的42.48%,展现了模型对无人机图像的优秀检测性能。