本发明提供了一种基于注意力与对抗网络的人体姿态估计方法、介质及设备;其中方法为:将待预测的图像输入到基于对抗网络的数据增强模块进行数据增强处理,得到数据增强图像;将数据增强图像输入到基于多尺度空间注意力的人体姿态估计网络,得到输出热力图;将输出热力图转换成各关键点的空间坐标,生成人体姿态,进而得到人体姿态估计结果。该方法可从不同尺度特征中获取空间注意力,同时对注意力进行多尺度融合,结合全局与局部注意力特征,最终生成更加精细的空间注意力,可解决遮挡图像与复杂背景图像的预测问题。