摘要

Facebook提出的C3D三维卷积神经网络虽然能达到良好的视频动作识别准确率,但是在速度方面还有很大的改进余地,而且训练得到的模型过大,不便于移动设备使用。本文利用小型卷积核能够减少参数的特点,对已有网络结构进行优化,提出一种新的动作识别方案,将原C3D神经网络常用的3×3×3卷积核分解成深度卷积和点卷积(1×1×1卷积核),并且在UCF101数据集和ActivityNet数据集训练测试。结果表明,与原C3D网络进行对比:改进后的C3D网络准确率比C3D提升了2.4%,在速度方面比C3D提升了12.9%,模型大小压缩到原来的25.8%。