摘要

针对目前多智能体寻路领域中存在的路线单一、易拥堵、易碰撞等问题,提出了一种基于全连接神经网络的近端策略优化算法。智能体利用射线作为其观测值,将收集到的观测值传入全连接神经网络中提取特征,近端策略优化算法根据所提取特征决定智能体下一个动作,通过不断训练,从而达到寻路目的。针对稀疏奖励问题,使用好奇心驱动和生成对抗性模仿学习完成训练。在Unity引擎进行仿真的结果证明,所提算法与Unity提供的NavMesh(导航网格)相比,在简单与复杂场景中均可实现更智能、更合理的多智能体动态寻路。