摘要

人群计数旨在准确地预测现实场景中人群的数量、分布和密度,然而现实场景普遍存在背景复杂、目标尺度多样和人群分布杂乱等问题,给人群计数任务带来极大的挑战。针对这些问题,提出了一种融合通道与空间注意力的编解码结构人群计数网络(CSANet)。该模型采用多层次编解码网络结构提取多尺度语义特征,并充分融合空间上下文信息,以此来解决复杂场景中行人尺度变化和分布杂乱的问题;为了降低复杂背景对计数性能的影响,在特征融合的过程中引入了通道与空间注意力,提高人群区域的特征权重,凸显感兴趣区域,同时降低弱相关背景区域的特征权重,抑制背景噪声干扰,最终提升人群密度图质量。为了验证算法的有效性,在多个经典人群计数数据集上进行了实验,实验结果表明,与现有的人群计数算法相比,CSANet具有良好的多尺度特征提取能力和背景噪声抑制能力,这使得密集场景下计数算法的准确性和鲁棒性均有较大提升。