摘要
采用多无人机对未知环境进行探索,可以提高探索任务的鲁棒性和执行效率。不同于启发式方法,多智能体深度强化学习方法可以省去人为制定规则的过程,将无人机作为智能体,通过与环境互动,自主习得更加有效的“规则”。本文搭建了多无人机多线程仿真环境,为多无人机协同训练提供环境,提出一种适应多线程环境的结合长短时循环神经网络(记忆)的共享多智能体近端策略优化(LSTM-MAPPO)方法,并在在合作型LSTM-MAPPO方法的基础上增加了全局边界信息以增大每幕探索面积。数值实验结果表明:与现有的多智能体深度确定性策略梯度(MADDPG)方法相比,其在连读动作下在训练后期也能稳定收敛;相比较于现有的LSTM-MAPPO方法,其最终获得的奖励稳定高于5000;对三种不同的仿真地图,训练完的网络在测试时能实现70%以上的稳定探索面积。
- 单位