摘要
针对多智能体系统中智能体通信能力受限和多智能体强化学习中联合动作空间维数灾难问题,提出一种基于一致性的多智能体Q学习算法MAQC。该算法采用集中训练-分散执行框架(centralized training and decentralized execution, CTDE),在集中训练阶段,MAQC采用值分解方法来缓解联合动作空间维数灾难问题。此外,每个智能体把自己感知到的局部状态和接收到的邻居的局部状态发送给所有邻居,最终使网络中的智能体获得所有智能体的全局状态。智能体所需的时间差分信息由一致性算法获得,智能体只需向邻居发送时间差分信息的分量信息。在执行阶段,每个智能体只需根据与自己动作有关的Q值函数来选择动作。仿真实验表明MAQC算法能够收敛到最优联合策略。
-
单位自动化学院; 青岛大学