摘要
针对现有的基于3D卷积神经网络的人体动作识别算法存在实时性较差、训练时间长、计算复杂度高等问题,提出了一种新的人体动作识别算法,采用高精度Transformer风格的骨干网络,并融合时序移位模块和轻量级注意力机制。该算法通过骨干网络CoTNeXt对上下文信息进行挖掘并进行自注意力学习,从而有效地增强动作特征。时序移位模块可以充分提取动作时序信息,而融合注意力机制可以通过增加正则化项来进一步抑制不显著的特征,从而突出显著动作特征。实验结果表明,该算法在Jester数据集和Kinetics-400数据集上的识别准确率分别达到了97.42%和75.94%,与现有的大多数人体动作识别算法相比,该算法在准确性和实时性方面表现更好。
- 单位