基于平均场内生奖励的多智能体强化学习算法

孙文绮; 李大鹏; 田峰; 丁良辉

doi:10.3969/j.issn.1003-3114.2023.03.022

摘要

针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题，提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3IR-UCRL)算法。该算法在奖励函数中增加了内生奖励模块，用生成的内生奖励与定义任务的外部奖励一起帮助代表智能体在用平均场控制(Mean-Field Control, MFC)化简的多智能体系统中学习策略。智能体学习时首先按照期望累积内外奖励加权和的梯度方向更新策略参数，然后按照期望累积外部奖励的梯度方向更新内生奖励参数。仿真结果表明，相比于只用简单外部奖励引导智能体学习的(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3-UCRL)算法，所提算法可以有效提高智能体在复杂的多智能体场景中的任务完成率，降低与周围环境的碰撞率，从而使算法的整体性能得到提升。

单位
上海交通大学; 通信与信息工程学院; 南京邮电大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 04:19

基于平均场内生奖励的多智能体强化学习算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友