摘要

人群计数被大量应用于视频监控、交通监控、汇编控制以及其它公共安全应用场景。上下文信息相关的透视扭曲和背景干扰是影响人群计数准确性的两个关键因素。区别于只解决其中一种特定因素的传统方法,本文提出一种人群计数网络,其充分聚合上下文信息,达到同时解决两种因素的目的。提出一个多任务的全卷积网络结构,学习人群密度估计和语义分割辅助任务,前者通过提取多尺度和空间上下文信息学习人群密度图,辅助语义分割任务通过学习背景和前景信息,后期将语义分割提取的信息融入人群密度估计任务。结果表明,提出的人群计数网络具有较好的人群计数准确率;与其它方法相比,提出的方法在3个具有挑战性的人群数据集上具有更高鲁棒性。