摘要

训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验回放(HER)的MADDPG算法,以不断更新目标状态和计算回报值的方式提升样本抽取效率,进而提升算法的训练效果。多场景对比试验表明,该算法在效率和性能方面较原始算法均有较大提升。

  • 单位
    中国人民解放军海军指挥学院