一种基于投票法的多策略多目标强化学习算法

王立佳; 朱正伟; 诸燕平; 朱晨阳

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

一种基于投票法的多策略多目标强化学习算法

作者：王立佳; 朱正伟; 诸燕平; 朱晨阳

来源：计算机仿真, 2023, 40(04): 341-406.

摘要

针对多目标强化学习中的多策略算法收敛不稳定的问题，提出了一种基于Sarsa算法框架的多目标帕累托Sarsa算法(Multi-Pareto Sarsa, MPS)。MPS算法以向量集的形式更新行为价值，使用一种新的基于投票法的集合评估机制代替传统的行为策略，智能体通过基于投票法的集合评估机制评估行为空间中每个行为对应的行为价值向量集，然后根据评估结果选择当前状态下的最优行为。实验结果表明，MPS算法与已有的MPQ、PQL算法相比有较好的收敛性，且MPS算法与MPQ算法相比在超体积性能上有很大的提升。

单位
常州大学

收藏分享被引浏览

更新时间：2024-03-15 15:23

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号