摘要
多智能体编队避障控制的目的在于保持多智能体队形的同时完成避障。针对复杂环境的随机性和不确定性,提出了一种不确定环境下的深度强化学习编队避障控制方法。首先,设计了价值评估网络来增加多智能体编队过程中触碰障碍物或者到达期望位置这些特殊动作的经验,使智能体更快地理解环境规则。其次,在智能体选择动作时,基于贪心策略,对动作选择策略进行改进以提高智能体的学习效率。再次,设计了样本存储空间,在增加样本的利用率的同时提高模型训练效率,并且在决策阶段结合多步学习算法使价值估计更准确。最后,将提出的方法与其他算法进行了对比实验。仿真结果表明提出的方法能使多个智能体在维持队形的同时进行避障,并且有效地提高了智能体学习效率。
- 单位