摘要
针对挖掘机的自主作业场景,提出了基于强化学习的时间最优轨迹规划方法.该方法搭建仿真环境用于产生数据,以动臂、斗杆和铲斗关节的角度、角速度为状态观测变量,以各个关节的角加速度值为动作信息,通过状态观测信息实现仿真环境与自主学习算法的交互,设计以动臂、斗杆和铲斗关节运动是否超出允许范围、完成任务总时间和目标相对距离为奖励函数对策略网络参数进行训练,最终利用改进的近端策略优化算法(Proximal Policy Optimization,PPO)实现了挖掘机的时间最优轨迹规划.与此同时,与不同连续动作空间的强化学习算法进行对比,实验结果表明,本文提出的优化算法效率更高,收敛速度更快,作业轨迹更平滑,可有效避免各个关节受到较大冲击,有助于挖掘机高效、平稳的作业.
-
单位电子信息工程学院; 太原科技大学