摘要
针对现有视频人群计数方法网络模型复杂度高、精确度和实时性差的问题,提出了一种空间混洗与链式残差增强的轻量级视频人群计数方法。所提模型由多尺度深度可分离反向卷积编码器、尺度回归解码器和预测输出层构成。其中,在编码器部分,首先,设计多尺度深度可分离反向残差块,提取不同分辨率的人群特征及相邻帧之间的时域特征信息,提高模型的轻量化程度。接着,提出空间混洗模块嵌入到编码骨干网络中,增强不同尺度人群特征提取能力。然后,在解码器部分,改进融合模块及链式残差模块对编码器输出的不同分辨率特征逐层聚合,减少细节特征丢失。最后,通过解码器预测输出,得到回归人群密度图并通过对密度图逐像素求和输出计数结果。本文方法在Mall、UCSD、FDST、ShanghaiTech等人群数据集上进行对比实验,结果表明该模型检测帧率和参数量等评价指标均优于对比算法,如在Mall数据集上,相较于ConvLSTM人群计数算法,本文方法的MAE、MSE误差值分别降低了43.75%、72.71%,对不同场景视频人群计数具有更高的准确率和实时性。
- 单位