摘要

近来强化学习越来越多的应用于多智能体系统。强化学习中奖励信号起着引导智能体学习的作用,然而,多智能体系统任务复杂,可能在任务结束时才能获得环境的反馈,造成奖励稀疏,导致算法收敛速度和效率大大下降。针对此类稀疏奖励问题,本文提出一种基于理性好奇心的多智能体强化学习方法。首先,受内在动机理论的启发,将好奇心思想扩展到多智能体中,提出理性好奇心奖励机制,利用一种分解求和的网络结构将不同排列的联合状态编码到同一特征表示,减少联合状态的探索空间,将网络的预测误差作为内在奖励,引导智能体去探索新颖且有用的效用状态;其次,引入双值函数网络对Q值进行评估,采用最小化算子计算目标值,缓解Q值过估计和方差,采用均值优化策略,提高样本利用。最后在追捕任务和合作导航任务的实验环境中进行了评估,在最困难的追捕任务中相较于基线算法胜率提高了15%左右,所需时间步降低了20%左右,在合作导航任务中也有较快的收敛速度,评估结果证明了该方法的有效性和通用性。