摘要

针对双流网络提取运动信息需要预先计算光流图,从而无法实现端到端的识别和三维卷积网络参数量繁重的问题,提出了一种基于视频时空特征的行为识别方法,能够高效地提取视频中的时空信息,且无需添加任何光流计算和三维卷积操作。首先,利用基于注意力机制的运动信息提取模块捕获相邻两帧之间的运动位移信息,模拟双流网络中光流图的作用。其次,提出了一种解耦的时空信息提取模块代替三维卷积,实现时空信息的编码。最后将两个模块嵌入二维的残差网络中,完成端到端的行为识别。将所提出的方法在几个主流的行为识别数据集上进行实验,在仅使用RGB视频帧作为输入的情况下,在UCF101、HMDB51、Something-Something-V1数据集上的识别准确率分别为96.5%,73.1%和46.6%,与使用双流结构的时间分段网络(TSN)方法相比,在UCF101数据集上的识别准确率提高了2.5个百分点。实验结果表明,所提方法能够高效地提取视频中的时空特征。