摘要
视频动作识别旨在分类不同视频片段中的动作,而一个视频片段中的动作连续存在于整个时间维度,因此对连续动作所包含的时序特征进行学习是视频动作识别任务中的一个重要方向。现有方法主要通过更多的卷积操作学习时序特征,获取视频动作时序信息的同时增加了模型的复杂度和计算量;而时序移位操作则通过沿时间维度对通道特征进行移位实现时序信息的建模,减少了计算量,但只考虑了低层次通道的时序特征学习,缺乏通道选择的依据,且忽略了时序移位对整个时空特征结构的影响。为此,提出基于动态时序移位(Dynamic Temporal Shift, DTS)的视频特征学习方法。首先,利用双层全连接神经网络学习不同层次通道上多个时间维度特征间的相关性,获得整个通道的注意力分布,并固定双层全连接神经网络的参数用于保存全局特征信息。然后,设计DTS模块,依据通道的注意力分布动态选择通道进行移位。此外,为消除时间维度上特征的移位对全局时空特征结构的影响,利用全局信息进一步学习全局时空特征(Global Spatiotemporal Feature)。在UCF101和Something-something v2公开数据集上取得较好的识别效果,验证了方法的有效性。
- 单位