摘要
本发明公开了一种基于RGB-D的视频三维人体姿态估计方法,包括以下步骤:使用RGB摄像头获取RGB视频,对于RGB摄像头拍摄的同一场景,使用深度相机获取对应的深度视频;获取RGB视频中每帧人体二维姿态,根据二维姿态从深度图像中获取关键点深度值,从而得到对应帧的二维人体姿态的深度向量;使用深度信息编码模块学习深度信息特征;将获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息,输出融合时间维度信息的特征,将该特征作为三维姿态假设生成模块的输入,生成出不同的三维姿态假设;使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合,将融合后的特征预测三维人体姿态结果。
- 单位