摘要

针对多智能体在网格环境下的寻路与避障规划问题,提出了一种分布式、基于深度强化学习的多机器人避障导航方法。该方法基于PPO(Proximal Policy Optimization Algorithms)算法用于离散决策下的改进方法进行训练得到的策略模型,该模型通过每个智能体自身的前序多帧仿真激光雷达距离信息,生成符合预设规范的动作,实现多机器人系统在不同环境中的寻路避障。该模型在训练过程中通过引入密度奖励、距离奖励以及步长惩罚,提高了智能体在场景当中的避障寻路能力,减轻了拥塞、死锁等问题的发生,减少了无效路径生成。实验部分在仿真环境中对模型在随机场景、复杂交互场景、障碍场景多个场景进行实验,证明了该模型相比于集中式规划方法大大降低了规划时间,提高了泛化性和稳定性。通过与其他分布式方法相比,证明了文章所提到的密度、距离奖励设置对智能体安全快速完成任务具有良好作用,在规划效果上减小了与集中式规划方式的差距。