摘要
为提高多智能体系统的智能决策能力,针对多智能体强化学习的经验重放存在的弊端,以及在智能体决策中强调动作价值,忽略状态值等问题,提出一种基于优先价值的算法改进思路。首先,该算法引入优先经验回放机制,通过重要性权重进行经验复用,弥补随机采样问题,其次在智能体的值网络中引入优势价值网络形式,估计状态价值与动作优势的信息差。通过多个协同场景的实验结果表明,该算法能够提升多智能体系统的学习与合作质量,使智能体更快更好的做出决策,完成给定任务。
-
单位南京信息工程大学; 自动化学院