摘要

针对在视频行为检测中卷积神经网络(CNN)对时域信息理解能力不足的问题,提出了一种融合非局部神经网络的行为检测模型。模型采用一种双分支的CNN结构,分别提取视频的空间特征和运动特征。将视频单帧和视频连续帧序列作为网络输入,空间网络对视频当前帧进行2D CNN特征提取,时空网络采用融合非局部模块的3D CNN来捕获视频帧之间的全局联系。为了进一步增强上下文语义信息,使用一种通道融合机制来聚合双分支网络的特征,最后将融合后的特征用于帧级检测。在UCF101-24和JHMDB 2个数据集上进行了实验,结果表明,该方法能够充分融合空间和时间维度信息,在基于视频的时空行为检测任务上具有较高的检测精度。