摘要
深度学习在图像领域取得的突破,使得特征学习方面取得了迅猛的发展。针对视频序列中连续帧具有的时间相关性,提出了一种基于注意力机制的残差3D卷积网络模型用于人体动作识别。首先利用残差3D卷积网络学习视频序列中连续视频帧之间的时间相关性,即时空特征;之后利用扩展到三维的通道注意力网络对残差3D卷积结构学习到的每个特征通道赋予不同的权值;最后将重新标定权重的特征输入分类器得到最终的分类。在UCF-101和HMDB-51数据集上进行实验,分别取得了95.8%和69.7%的准确率。实验结果表明,所提出的模型在视频人体动作识别问题上具有较高的识别准确率。
- 单位