摘要

双流卷积网络能够在视频中建模表观和运动信息,是行为识别中一种重要的基础网络模型.然而,这种模型只能学习单帧的空间信息和少数几帧的时间信息,无法有效地建模整段视频中的长时信息.为此,本文提出一种基于局部约束仿射子空间编码的时空特征聚合卷积网络.该网络的核心是局部约束仿射子空间编码层,能够嵌入到双流卷积网络中用于聚合覆盖整段视频的空间和时间特征,从而获得视频的全局时空表达.局部约束仿射子空间编码层由权重系数计算和仿射子空间编码组成,其中的参数可与卷积网络中的其他参数进行联合优化从而进行端到端的学习.同时,本文研究了在代价函数中施加软正交约束、无穷范数约束和谱范数约束三种方法,以保证仿射子空间基的正交性.在常用的UCF101、HMDB51和Something-V1数据集上,本文的方法比经典的双流卷积网络识别准确率分别提升1.7%、8.7%和4.3%,同时达到或优于当前最先进的方法.