摘要

强化学习当前越来越多地应用于多智能体系统。在强化学习中,奖励信号起引导智能体学习的作用,然而多智能体系统任务复杂,可能只在任务结束时才能获得环境的反馈,导致奖励稀疏,大幅降底算法的收敛速度和效率。为解决稀疏奖励问题,提出一种基于理性好奇心的多智能体强化学习方法。受内在动机理论的启发,将好奇心思想扩展到多智能体中,并给出理性好奇心奖励机制,利用分解求和的网络结构将不同排列的联合状态编码到同一特征表示,减少联合状态的探索空间,将网络的预测误差作为内在奖励,引导智能体去研究新颖且有用的效用状态。在此基础上,引入双值函数网络对Q值进行评估,采用最小化算子计算目标值,缓解Q值的过估计偏差和方差,并采用均值优化策略提高样本利用。在追捕任务和合作导航任务的环境中进行实验评估,结果表明,在最困难的追捕任务中,该方法相较于基线算法,胜率提高15%左右,所需时间步降低20%左右,在合作导航任务中也具有较快的收敛速度。

全文