摘要
针对原始C3D卷积神经网络参数量庞大,以及在压缩网络参数的同时进一步提高视频数据集中人体行为的识别率的问题,提出一种改进型C3D卷积神经网络模型。首先,采用全局平均池化和卷积分类操作取代全连接层,形成全卷积网络形式,之后在模型中分别引入卷积核为(3×3×3)和(1×1×1)的三维卷积层,并在此基础上采用卷积核为(3×1×7)和(3×7×1)的三维卷积层对多个(3×3×3)卷积层合并。最后,将所提方法在数据集UCF101和HMDB51上进行训练测试,并与当前深度学习现有流行算法进行比较。实验结果表明,本文所提方法与原始C3D网络模型相比,在UCF101数据集和HMDB51数据集上识别率分别提高了8.9%和7.9%,参数量压缩为原来的32.9%,并且在模型压缩和识别率上也均优于其他方法。
- 单位