摘要
3D人体姿态估计是计算机视觉任务中一直非常具有挑战的任务。由于样本标注难度大,往往只能获得有限场景下的离散关键点数据,给三维的预测带来了更大的挑战。研究发现,虽然人体是一个非常灵活的结构,但是单个躯干可以看作刚体。这意味着当只知道躯干两端的深度时,整个躯干的深度都可以通过密集插值得到估计值。因此,提出了一种可以将每个躯干的密集深度插值特征图作为中间监督的方法。该特征图为深度的估计提供了更加密集、更加结构化的学习目标,而不仅仅是直接对离散关键点的深度进行回归。在数据集Human3.6M上的实验结果表明,该方法仅仅通过简单的网络结构,平均每个关节位置误差达到50.9 mm。在数据集MPI-INF-3DHP上进行的跨域实验进一步证明了模型强大的泛化能力。
- 单位