摘要
针对行人拥挤场景下姿态密集交叉、识别能力急剧下降等问题,论文提出了一种有效解决拥挤场景下多人检测以及姿态估计的方法。该方法主要由两个关键部分组成。首先利用Faster-RCNN行人检测器,预测出包含行人位置和大小规模的矩形框。然后,预测每个矩形框中可能包含的行人骨骼关键点,使用全卷积ResNet网络来预测每个骨骼关键点的热力图和偏移量并输出。使用基于骨骼关键点的非极大值抑制和热力图置信度分数预测的新方式,使得最终输出行人姿态结果更加准确,对于背影、遮挡等不可避免的干扰具有一定的鲁棒性。实验结果表明,该方法在COCO数据集和SUES行人数据集上获得平均精度达到了0.673,与之前在相同数据集上的同类方法相比,有不低于5%的改进。
- 单位