摘要

尽管多人2D姿态估计方法趋近成熟,但现存的方法无法有效识别小目标的姿态。针对当前小目标姿态难以识别的问题,提出一种融合全局-局部上下文信息的多人姿态估计方法。利用HRNet网络输出的不同尺度特征对人体的多个解剖中心进行粗糙的定位,通过多中心点提供给小目标更多的监督信息,来提高对小目标的定位能力。以定位的人体中心点坐标为线索,通过可变形采样的方式提取中心点附近不同尺度的局部上下文信息,并计算不同目标局部上下文信息之间的对比损失以提高目标之间的判别能力。以HRNet网络的低分辨率特征作为全局上下文信息,以局部上下文信息作为交叉注意力的查询,结合全局和局部上下文信息构建多层Transformer模型,来增强小目标的上下文信息。利用增强的小目标上下文信息为聚类中心,解耦多尺度融合的特征得到不同目标对应的关键点热图,从而实现小目标多人姿态估计。实验结果表明,该方法能够有效提高小目标姿态的识别性能,在COCO test-dev2017数据集上取得了69.0%AP ,APM比现有的方法提高了1.4%。

全文