摘要
人类行为识别作为视频分类中的重要问题,成为计算机视觉中的热门话题。由于卷积神经网络(CNN)的几何结构固定统一,这将会使得其几何变形建模受限,使得行为识别网络难以鲁棒性的识别行为类别。本文提出了一种融入可形变卷积的行为识别网络模型。首先,引入可形变卷积,构建了一种可协同学习空间外观和时间运动线索的模块,该模块分别学习视频数据3个正交视图特征进行融合;其次,在ResNet网络的基础上,用该模块将其网络中部分关键性卷积模块进行替换,产生一种新颖的改进版本的3D-ResNet网络,用于视频数据集的训练和测试;最后,在UCF101和HMDB51数据集训练和测试,得到识别精度优于现有的大多数先进方法。
- 单位