摘要

与传统的基于RGB视频的行为识别任务相比,基于人体骨架的行为识别方法由于其具有受光照、视角和背景复杂度等诸多因素影响非常小的特点,使其成为近几年来计算机视觉领域的主要研究方向之一。但是目前主流的基于人体骨架的行为识别方法都或多或少地存在参数量过大,运算时间过长,计算复杂度过高等问题,从而导致这些方法难以同时满足时效性和准确度这两个要求。针对上述问题,提出了一种融合多模态数据的轻量级图卷积神经网络。首先通过多模态数据融合的方法将多种信息流数据进行融合;其次通过空间流模块和时间流模块分别获得融合后数据的空间信息和时间信息;最后通过全连接层获得最终的分类结果。在行为识别数据集NTU60 RGB+D和NTU120 RGB+D上的测试结果表明该网络不仅在识别精度上优于近两年内的一些主流方法,同时在参数量的比较上也远小于其他主流方法,从而验证了该网络在兼顾时效性和计算成本的同时,准确度上的表现也十分优异。