摘要

为解决传统目标检测方法准确性差、效率低,无法满足智能仓储场景需求的问题,提出基于Transformer改进的Faster-Rcnn仓储箱体检测模型。首先,在Faster-Rcnn模型的基础上,将卷积神经网络Resnet50改进为Swin Transformer模型,使用Swin Transformer进行全局信息提取,解决了使用传统算法特征提取不理想,产生冗余的检测窗口以及误检窗口的问题。其次,引入了特征金字塔结构,使模型适用于多尺度的物体检测。最后,使用ROI Align代替ROI Pooling,消除了ROI Pooling中因浮点数取整从而对后层的检测框回归产生的误差。在自建的仓储数据集训练模型,将数据集图片进行随机旋转、随机剪裁、图片标准化等操作进行数据增强。实验结果表明,改进后的模型用于箱体检测,平均准确率达到90.6%,平均召回率达到93.3%,平均检测速度达到8.9fps,较好地实现了仓储物体的准确检测,满足智能仓储的需求。准确率方面比Faster R-CNN、YOLOv3、SSD、FCOS等算法高出6.1%、5%、10.2%、9.7%,召回率高出了5.9%、4%、10.1%、9.4%。

全文