摘要

目前,多数基于图卷积网络的骨架动作识别模型在提取空间特征时,在所有通道上共享相同的拓扑结构,限制了空间聚合的表现能力;在提取时间特征时,仅堆叠多层的一维局部卷积,使得非相邻时间帧之间的关联信息被忽略。因此,提出一种结合解耦注意力与时态建模的图卷积网络模型。通过使用解耦注意力图卷积模块和通道注意力模块,将更多的注意力集中在关键的通道信息上,提高图卷积网络的空间聚合表达能力;通过融入多尺度时态建模模块,对相邻和非相邻时间步长之间的时态关系进行建模,充分提取骨架序列的时间动态特征。在公开的大规模数据集NTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton上进行了实验,分别取得了90.1%(CV)和96.0%(CS)、86.0%(CSub)和87.2%(CSet)、37.3%的top-1识别准确率。实验结果表明,识别精度优于当前较主流的方法,提高了人体骨架动作识别的准确性。

全文