多机器人在网格环境约束下的运动策略

李硕; 赵永廷; 何盼; 高鹏; 王小军; 赵立军; 郑彬

摘要

针对多智能体在网格环境下的寻路与避障规划问题，提出了一种分布式、基于深度强化学习的多机器人避障导航方法。该方法基于PPO（Proximal Policy Optimization Algorithms）算法用于离散决策下的改进方法进行训练得到的策略模型，该模型通过每个智能体自身的前序多帧仿真激光雷达距离信息，生成符合预设规范的动作，实现多机器人系统在不同环境中的寻路避障。该模型在训练过程中通过引入密度奖励、距离奖励以及步长惩罚，提高了智能体在场景当中的避障寻路能力，减轻了拥塞、死锁等问题的发生，减少了无效路径生成。实验部分在仿真环境中对模型在随机场景、复杂交互场景、障碍场景多个场景进行实验，证明了该模型相比于集中式规划方法大大降低了规划时间，提高了泛化性和稳定性。通过与其他分布式方法相比，证明了文章所提到的密度、距离奖励设置对智能体安全快速完成任务具有良好作用，在规划效果上减小了与集中式规划方式的差距。

单位
重庆文理学院; 重庆邮电大学; 中国科学院重庆绿色智能技术研究院

收藏分享被引浏览

更新时间：2023-02-09 23:06

多机器人在网格环境约束下的运动策略

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友