摘要

为了减少基于深度学习动作识别过程中视频图像背景和冗余帧等对识别效果的影响,在深度学习框架中加入注意力机制,提出了一种利用长短时记忆(long short-term memory, LSTM)网络等强化特征提取的方法。首先,改进了数据处理方法,使用融入空间注意力机制的残差网络提取视频中的动作序列空间特征;其次,提出时序注意力机制(temporal attention mechanism, TAM),进一步提取LSTM输出动作序列的时序特征,并根据不同时刻LSTM输出的重要程度,为视频帧序列动态分配加权系数;最后,通过Softmax分类器完成动作分类。结果表明,所提方法在UCF101数据集上的识别准确率达到了96.9%。