摘要

在面对复杂任务时,传统强化学习方法存在状态空间庞大、奖励函数稀疏等问题,导致机械臂不能学习到复杂的操作技能。针对上述问题,提出一种基于分层强化学习的机械臂复杂操作技能学习方法。首先,底层运用基于Beta过程的自回归隐马尔可夫模型,将复杂操作任务分解为多个简单的子任务;其次,对每个子任务运用SAC算法进行技能学习,得到每个子任务的最优策略;最后,根据底层得到的子任务最优策略,上层通过基于最大熵目标的改进强化学习算法学习复杂操作技能。实验结果表明,所提方法能有效实现机械臂复杂操作技能的学习、再现与泛化,并在性能上优于其他传统强化学习算法。

全文