摘要

在公共安全领域,基于图像的人群计数具有重要的社会意义和应用前景,难题在于人群遮挡、密度分布不均、背景噪声和人在场景中的尺度和外观变化范围大。提出一种深度卷积神经网络结构,一方面使用类似于VGG16的网络结构来学习图片中的深层语义信息,另一方面使用多列神经网络来学习各种头部尺寸的特征信息。将拥有不同大小感受野和深度的分支网络得到的特征图融合在一起,可有效地收集到图片中的底层细节特征和高层语义信息。通过将这两部分结合在一起计算人群数量。在ShanghaiTech数据集上测试,PartA和PartB的平均绝对误差分别为72.0和10.1;PartA和PartB的均方误差分别为107.9和16.0。