摘要

最近几年视频动作识别的性能有了显著的提高。当前大多数网络是通过改变主干卷积神经网络来提高性能,或者通过改变主干网络来探索模型的效率和性能之间的权衡。但是大多数的工作在网络的最后都是全局平均池化层后接一个全连接层,这使得网络的表达能力不够好。为了解决这个问题,提出一个基于运动注意力模块的多分支网络来提高动作识别的性能,该网络首先使用运动注意力模块来捕获相邻帧之间的特征差异,从而在通道上增强运动相关的特征,抑制无关的背景信息,然后利用多分支结构提取全局特征和局部特征,并提高网络对更精细的细节的敏感能力。实验证明,提出的网络在Kinetics-400和Something-Something-V1数据集上实现了较好的识别精度。