摘要
为充分利用视频序列中长时运动特征,提高行为识别准确率,提出一种深度残差长短时记忆(LSTM)双流卷积融合网络结构。以Res-C3Dnet作为表观短时运动流和长时运动流的基础模型,分别提取表观短时运动信息和长时运动信息,采用乘法交叉流残差单向连接融合两个运动流;以融合特征作为深度残差LSTM模块输入,递归学习长时动态特征;将学习到的深度特征输入到线性SVM中,实现行为分类与识别。在数据集UCF-101和HMDB51上的实验结果表明,该模型能够充分利用视频序列中的长时运动信息,识别准确率分别可达95.1%和74.6%,具有很好的识别效果。
-
单位北京交通大学海滨学院; 华北理工大学