摘要

对于视频中的人体行为识别问题,提出了多时长特征融合模块以提取多种具有不同时长的行为信息,多时长特征融合模块由多个具有不同时间维度的3D卷积核计算并联组成,并结合密集连接模块设计了一种基于多时长信息特征融合的密集连接卷积神经网络。该网络对从视频中提取的序列图像进行特征学习,有效地提取了动态行为特征,并对其进行分类。同时,提出了一种3D卷积神经网络预训练策略,实现了从2D到3D卷积神经网络的迁移学习。实验结果表明:该方法能够对视频中的人体行为进行有效地识别,在UCF101与HMDB51数据集上分类准确率分别达到87.1%与58.3%。