摘要
随着经济社会的发展,视频分析任务越来越受到重视。同时,人体行为识别技术已广泛应用于虚拟现实、视频监控、视频检索等领域。传统的人类动作识别方法使用2D卷积处理输入视频,但2D卷积只能提取空间特征,而基于手工提取的方法在复杂环境下又难以处理。因此,在深度学习和图像分类任务取得成功的大背景下,基于深度学习的双流网络以及可以同时提取时空特征的3D卷积应运而生。3D卷积在最近几年迅速发展,衍生出多种经典架构且每种框架拥有不同的特性,各种框架皆存在各自的优化方法以及提高速度和精度的效果。在总结几种主流3D卷积框架的基础上将其在相应数据集上进行对比分析,可以得到每种框架的优势及弊端,以此扬长避短,寻找与实际情景相适应的最优框架。
- 单位