摘要
随着信息技术的不断发展,机器的智能化成为热点研究问题。深度学习能有效地提取出环境中的特征信息,强化学习能有效地提出行为策略,将二者进行融合形成深度强化学习是人工智能研究领域的必然趋势,多种深度强化学习算法也随之发展。其中近端策略优化算法稳定性好、采样率高,在连续控制问题中有良好表现,在飞行器及机器人控制、机器博弈、无人驾驶等领域得到广泛应用。围绕深度强化学习的发展历程,总结深度强化学习常用算法的分类及各个算法的特点,包括基于值函数的方法、基于策略的方法、基于模型的方法和基于分层的方法,并重点介绍近端策略优化算法的原理、优化路径,涉及加入分布式计算、改进优势函数、分层优化等方向及相关优化算法的适用场景。