摘要
针对视频中复杂人体动作识别精度低、效率差的问题,提出了一种时空特征提取的稠密连接网络模型。首先利用两个稠密连接网络进行时空特征的提取;其次构建时空网络间的稠密连接,将时间网络中提取到的特征信息逐层输入到空间流网络中,提高两个流的时空交互性;然后使用LSTM网络分别对双流网络特征进行处理得到两个流的预测结果;最后融合双流网络的预测结果,从而实现视频中复杂行为的识别。在UCF101和HMDB51两个基准数据集上进行对比实验,得到94.69%和68.87%的准确率,优于其他算法。实验证明,本文模型可增加时空网络之间的交互性,有利于对复杂人体动作的识别。
-
单位机电工程学院; 电子工程学院; 青岛科技大学