摘要
由于现实场景下的行人目标在形态、尺度等方面存在巨大差异,相比与传统方法对多尺度行人检测平均精准率较低的情况,基于Transformer注意力机制的网络在行人检测领域已经展现出了强大的性能。然而,密集场景下的多尺度检测仍存在一些难点。在密集场景中,通常会包含大量的被遮挡或小规模的行人目标,导致模型产生大量的误检和漏检,同时耗费大量的计算资源。此外,当行人目标重叠较为严重时,准确的检出所有目标也会变得极为困难。为了解决上述问题,提出了一种基于滑窗注意力的密集场景多尺度行人检测算法。在Backbone中使用改进Swin block使得网络能够提取到更多的细节特征,同时减少注意力机制带来的繁重计算量。为有效解决特征融合问题,在Neck部分使用DyHead block来统一多个注意力运算,以此提高特征融合效率。针对特征均衡问题,设计了一种基于全连接的特征尺度均衡模块,通过在特征金字塔的各层级之间构造不同的残差结构来进行特征平衡,辅助模型生成更高质量的特征图。在WiderPerson数据集上的实验结果表明,该算法在AP值上提升了1.1个百分点,在最值得关注的小目标和中目标上也分别有1.0和0.7个百分点的提升。
- 单位