基于时空注意力金字塔卷积的动作识别

冯雨威; 吴丽君

doi:10.19358/j.issn.2097-1788.2023.02.012

摘要

动作识别算法需要从视频中提取空间和时域特征,对计算存储资源要求较高。基于2D CNN的网络更为轻量,但从视频中提取时域特征的能力较弱,动作识别性能通常受到限制。S-TPNet提出时空金字塔模块以获取图像序列的时间粒度特征,有效提升了基于2D CNN的动作识别网络的性能。基于S-TPNet,设计了时空注意力模型以凸显空间和时间上的重要特征。为降低输入数据量,通常抽取局部视频帧作为输入,为降低采样帧与整体视频之间的不稳定差异,设计了自适应等间隔采样策略。实验表明,在未预训练的情况下,本网络在UCF-101和HMDB-51数据集上分别将Top-1精度提高了5.1%和3.3%,并且不会大幅增加所需参数。

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-15 15:16

基于时空注意力金字塔卷积的动作识别

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友