摘要
为提高双足机器人应对不同场地步态控制的自主性与稳定性,提出了一种基于改进强化学习的机器人双足步态控制方法。在构建机器人双足步态控制强化学习框架的基础上,对确定性策略梯度进行修正,基于Actor-Critic结构将网络训练样本一分为二,分别对行为价值进行独立估计,通过使用多层神经网络参数化策略并应用确定性策略梯度学习,从而学习到具有较强鲁棒性的步态控制策略。仿真实验表明:通过本文方法能够使机器人臀部、大腿、关节、小腿以及指向获得更为稳定的控制策略,步态收敛更迅速、步态收敛域更大,实现了不同速度下不同场地的稳健步行运动。
-
单位四川托普信息技术职业学院