摘要
视频行为识别是智能视频分析的重要组成部分。深度学习方法在该领域有了显著的进步,目前得到最佳效果的方法都使用了双流卷积神经网络。在长视频识别中,现有的行为识别方法大多以均匀分段固定采样得到的视频帧作为输入,这可能损失采样间隔中的重要信息。通过定义视频的信息量,提出了一种用于视频行为识别的片段划分和关键帧提取方法,使用多时间尺度双流网络提取视频特征,设计了视频行为识别系统,在UCF101数据集split1上达到了目前最高的94.2%准确率。
-
单位虚拟现实技术与系统国家重点实验室; 北京航空航天大学