摘要

针对行为识别中时空信息分布不均衡以及对长时间跨度信息表征获取难的问题,提出了一种时间-动作感知的多尺度时间序列实时行为识别方法MRTP。该方法以RGB视频为输入,使用两个并行的感知路径在不同的时间分辨率上对视频进行空间特征与动作特征提取。在空间路径中,使用基于特征差分的动作感知寻找并加强通道动作特征表征;在动作路径中,基于动作感知的权重对通道进行筛选,并加入通道注意力和时间注意力加强关键特征;对两个路径的特征融合映射出视频的行为类别得分。实验结果表明:所提方法在UCF101数据集上达到了95.6%的准确率,优于未使用时间注意力的模型;在AVA2.2数据集上的平均精度达到了28%,优于未使用动作感知和时间注意力的模型。与目前主流的双流网络、3D卷积、Transformer等方法进行了多项准确率指标对比,结果表明所提方法具有更良好的识别效果和鲁棒性。