摘要

近年来人体姿态估计已成为计算机视觉领域的热门研究方向,堆叠沙漏网络是人体姿态估计领域中最具代表性的研究成果之一,但该网络对于图像细节特征的提取能力较差。为增强网络对细节特征的处理能力,本文提出了基于改进沙漏网络的人体姿态估计模型。该模型使用ResNet50提取高质量的图像底层特征,用步长为2的3×3卷积核代替maxpooling进行下采样,最大程度保留原有图像信息;考虑到不同分辨率下的特征丰富度具有一定差异性,使用不同的残差模块对不同分辨率的feature map进行处理,增强网络对特征的学习能力;最后使用反卷积最大化还原原始图像的局部特征。实验结果显示,本文模型在COCO测试集上的平均精度达到74.1%,比堆叠沙漏网络高出4.7%,检测精度有较大提升。