摘要

毫米波人体安检图像因为成像质量和遮挡等问题,使违禁品的识别难度较大。因此采用更优的检测识别算法,提升违禁品的识别速度和精度一直是业内重点研究的方向。将Vision Transformer(ViT)应用到毫米波图像违禁品的识别过程中,通过将无监督预训练的ViT与经典的目标检测算法(Faster R-CNN)相结合,实现了高精度的毫米波人体安检图像违禁品识别。为了充分训练和测试算法,制作一个包含枪支和刀具两类违禁品,共计14.5万个违禁品成像样本的毫米波人体安检数据集。通过与经典的基于101层残差网络(ResNet-101)的Faster R-CNN对比,该算法使mAP50提升了2.4个点,达到了89.9%。

全文