摘要

针对单模态特征条件下监控视频的场景识别精度与鲁棒性不高的问题,提出一种基于特征融合的半监督学习场景识别系统。系统模型首先通过卷积神经网络预训练模型分别提取视频帧与音频的场景描述特征;然后针对场景识别的特点进行视频级特征融合;接着通过深度信念网络进行无监督训练,并通过加入相对熵正则化项代价函数进行有监督调优;最后对模型分类效果进行了仿真分析。仿真结果表明,上述模型可有效提升监控场景分类精度,满足针对海量监控视频进行自动化结构化分析等公安业务需求。