融入时空注意力机制的深度学习网络视频动作分类

刘悦; 张雷<sup>*</sup>; 辛山; 张宇

摘要

为了减少基于深度学习动作识别过程中视频图像背景和冗余帧等对识别效果的影响，在深度学习框架中加入注意力机制，提出了一种利用长短时记忆(long short-term memory, LSTM)网络等强化特征提取的方法。首先，改进了数据处理方法，使用融入空间注意力机制的残差网络提取视频中的动作序列空间特征；其次，提出时序注意力机制(temporal attention mechanism, TAM),进一步提取LSTM输出动作序列的时序特征，并根据不同时刻LSTM输出的重要程度，为视频帧序列动态分配加权系数；最后，通过Softmax分类器完成动作分类。结果表明，所提方法在UCF101数据集上的识别准确率达到了96.9%。

单位
北京建筑大学

收藏分享被引浏览

更新时间：2024-03-20 21:55

融入时空注意力机制的深度学习网络视频动作分类

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友