摘要

人体姿态估计是计算机视觉领域的一个研究热点,已经应用于教育、体育等方面,在视频监控、人机交互、智能校园等领域有着广阔的应用前景。简单的姿态估计基线方法在沙漏残差模块中加入几层反卷积层,使用均方误差(MSE)损失函数,结构和算法复杂度较低且能够较为精确地预测出关节点热图。首先,采用分段函数H-ESL(huber-exponential squared loss)损失函数,克服了MSE损失函数对于异常值较为敏感的缺点。其次,提出的网络在基线方法的网络上加入了注意力机制,并将大的卷积核转换成小的卷积核,使得网络精度提升的同时减少参数量及计算量,从而提高网络的预测效率。拟建网络利用COCO2017数据集的地面真实值分别进行训练和验证,均实现了高精度,mAP提高了2.6%,证明该方法适用于各种人类关键热图的输入,并能取得良好的效果。

全文