基于视觉的人机交互技术通过捕捉识别身体语言为人们提供更加灵活便捷的交互方式,是人工智能与自然人机交互领域极具价值的研究内容。基于深度学习的三维人体姿态估计技术作为底层基础技术,对基于视觉的人机交互技术的快速发展与广泛应用起到了重要的推动作用。本文首先概述三维人体姿态估计技术的基本概念与主要挑战,并对不同方法进行分类,随后分别介绍使用RGB图像以及RGB-D图像进行三维姿态估计的深度学习技术,最后介绍这些技术的典型应用及未来的发展趋势展望。