摘要
针对现有的双流卷积神经网络,无法充分的融合视频的时序信息,从而对视频的行为理解不充分的问题,提出了一种改进的双流网络模型.首先在原双流网络中,分别将VGG-16神经网络替换为改进的ResNet神经网络,对单帧RGB图像特征进行预处理,将提取到的数据特征输入到改进的残差网络中.其次,在时间流部分,将连续光流图作为改进的ResNet网络结构的输入.最后,将得到的空间静态信息和运动信息在Fusion层进行融合,利用Softmax最大似然函数完成行为识别的任务,得到最终结果.实验结果表明:在UCF-101和HMDB-51数据集上,识别算法的平均精度分别为94.2%和68.4%,与传统方法相比,准确率有所提升,验证了该方法的有效性.
- 单位