摘要

视频异常检测是指识别不符合预期行为的事件。当前许多方法利用重构误差来检测异常,然而由于深度神经网络的强大能力可能会重构出异常行为,这与异常行为重构误差较大的假设不符。而利用预测未来帧的方法进行异常检测取得了很好的效果,但这些方法大多没有考虑正常样本的多样性,或者不能建立视频连续帧之间的关联。为了解决这个问题,提出了一种时序多尺度自编码器网络用于预测未来帧,并通过预测值与真实值的差异完成视频异常检测。该网络不仅明确考虑了正常事件的多样性,而且强大的编码器可以构建长程空间依赖关系,进而增强输出特征的多样性,此外,针对复杂的数据集含有较多噪声的特点,提出了去噪网络,进一步提升了模型的精度。本方法在达到实时性要求的前提下,在Avenue数据集上达到了目前最优的精度。