摘要

为了减少视频异常事件检测过程中冗余帧对检测效果的影响,更好地利用视频中关键帧包含的有用信息,提出了一种结合双流膨胀卷积神经网络(Two-stream Inflated 3D ConvNets,I3D)模型和压缩-激励注意力机制多示例异常检测算法。首先,利用双流膨胀卷积神经网络提取视频时空特征;其次,通过双向长短期记忆(Bidirectional Long Short Term Memory,Bidirectional LSTM)神经网络获取视频特征长时序信息;再次,借助压缩-激励注意力机制分配特征权重;最后,通过多示例排序损失函数得到异常排序模型,并在排序损失函数中加入稀疏损失和平滑损失,更好地预测视频异常分数。实验表明,在公开数据集UCF-Crime上检测准确率达到了82.84%,高于基线模型7.43%。