基于深度强化学习的无地图移动机器人导航

作者:户高铭; 蔡克卫; 王芳; 康玉伟; 张家旭; 金兆一; 林远山
来源:控制与决策, 2022, 1-9.
DOI:10.13195/j.kzyjc.2022.0590

摘要

针对传统导航方法对地图精度依赖和动态复杂场景适应差问题,提出一种基于课程学习的深度强化学习无地图自主导航算法。为了克服智能体稀疏奖励情况下学习困难的问题,借鉴课程学习思想,提出一种基于能力圈课程引导的深度强化学习训练方法,其思想是依据智能体能力评估结果设置合适的课程任务目标,在课程任务的引导下智能体导航能力逐步提升,有效缓解导航训练情景下奖励稀疏的问题。此外,为了更好地利用机器人当前的碰撞信息辅助机器人做动作决策,引入碰撞概率的概念,把机器人当前感知到的障碍物信息以一种高层语义的形式进行表示,并将其作为导航策略输入的一部分编码进机器人当前观测中,以简化观测到动作的映射,进一步降低学习的难度。实验结果表明,所提出的课程引导训练和碰撞概率可让导航策略收敛速度明显加快,习得的导航策略在空间更大的场景成功率到达90%以上,行驶耗时减少53.5%-73.1%,可为非结构化未知环境下的无人化作业提供可靠导航。

全文