摘要

随着深度学习的广泛应用,人体姿态估计成为动作识别领域的重要研究方向。为了解决人体姿态估计的准确率低以及目标的多尺度问题,提出了一种基于改进R-FCN(Region-based Fully Convolutional Networks)与语义分割相结合的人体姿态估计模型。首先针对模型的主体网络部分,采用ResNeXt-101深度学习网络替换R-FCN原有的ResNet-101基础网络,使得减少超参数的数量,从而提高准确率。然后针对候选区域结构,结合了一种多尺度RPN(Region Proposals Network)结构,处理候选区域中出现的多尺度问题。最后针对姿态估计部分,以目标检测框架R-FCN为基础,添加了Mask R-CNN中并行的mask分支作为语义分割网络,并且对人体的关键点进行提取,从而实现多任务的姿态识别。实验结果显示,模型在2017 MS COCO数据集上平均检测精度比Mask R-CNN模型提升了12.1%,比RMPE模型提升了2%。