摘要
行人检测在自动驾驶、客流量统计、智能监控等很多领域被应用。这些场景中行人大多是密集的,存在多尺度、多姿态和遮挡等问题,使得目前的密集行人检测算法存在检测精度较低,漏检率较高等问题。基于ResNet-50-FPN的CrowdDet算法为解决密集遮挡问题,在CrowdHuman数据集上得到了很好的结果。本文以此为基线检测器,提出了改进的算法。该算法包含两个模块,即Bottleneck Involution Network (BoINet) 的骨干网络和Double-HeadCrowdDet(DHCDet)的稀疏检测头部。与只使用了具有局域性和学习到静态参数的卷积的基线ResNet不同,BoINet将能够远距离交互的Involution动态卷积纳入到提取特征的任务中增强行人特征的表达能力;DHCDet使用了Double-Head结构改进CrowdDet算法,并将Double-Head中的自注意力机制Non-local(NL)替换为SpectralNon-local(SNL)进一步提升检测器的分类与回归的性能。本文的改进方法在CrowdHuman数据集上达到了91.25%AP,39.74%MR~(-2),同时JI 为83.60%,取得了比基线检测器更好的检测精度和更低的漏检率。
- 单位