摘要
针对合作多智能体系统缺乏个体奖励信号的情况下,不同智能体贡献无法区分导致合作效率低下的问题,利用价值分解范式引入了信用分配可区分性评价指标,并提出一种基于梯度熵正则化的方法实现区分度较高的信用分配。在此基础上,结合多智能体深度强化学习算法,提出一种改进型QMIX网络。通过SMAC多智能体学习环境和Starcraft2自带的地图编辑器,建立相应仿真实验环境,结果表明新提出的改进型QMIX网络相较于QMIX网络,学习效率和整体性能均有所提升,更适用于部分可观测环境下的合作多智能体强化学习问题。
- 单位