摘要
针对密集人群计数任务中人群尺度变化大、背景干扰以及特征融合导致的语义失调问题,提出了一种多尺度注意力机制的双路人群计数网络。网络主要由骨干网络、尺度增强模块、多尺度模块、上下文注意模块、注意力掩膜分支网络组成。首先,尺度增强模块通过捕捉不同尺度下的人群特征,并学习图像上每个特征的重要性,从而增强对尺度快速变化的适应性。其次,多尺度模块通过使用不同膨胀率的空洞卷积在保持原有特征图大小的前提下,对特征图进行多尺度变换,使得网络能够适应不同密度的人群场景。再次,上下文注意模块通过自适应地加权局部和全局上下文信息,实现了特征的融合与优化,以缓解不同级别特征存在的语义失调问题。最后,注意力掩膜分支网络通过生成与输入图像尺度相关的掩膜,降低背景干扰对网络性能的影响。通过这4个模块的相互配合,有效地提高了密集人群计数任务的准确性和稳定性,在多个数据集上的实验结果表明,该方法取得了较好的效果。
- 单位