摘要

利用强化学习进行机械臂智能控制时,通过机械臂对环境的自由探索,并根据环境反馈的奖励值来训练控制器,从而实现机械臂自主感知及决策的功能。但是,没有约束的自由探索会产生无效动作,从而导致训练周期过长、收敛速度慢的问题。本文提出了一种基于奖励与策略双优化的机械臂控制算法(Hybird Reward Generative Adversarial Imitation Learning, HR-GAIL)。奖励方面,基于本文改进的鉴别器,结合任务奖励与模仿奖励,构建了复合奖励函数。策略方面,结合鉴别器与策略网络构建了二元变量损失函数,在奖励与策略交替优化的过程中实现对控制器的更新。最后,通过在Pybullet环境中搭建Panda机械臂,并实施抓取及移动物块的仿真任务来验证本文算法的效果。仿真结果表明,在相同的仿真任务下,HR-GAIL比GAIL+SAC的完成时间缩短16%,抓取成功率提高5%,训练鉴别器速度与抓取稳定性得到了提升。