摘要
针对多目标强化学习中的多策略算法收敛不稳定的问题,提出了一种基于Sarsa算法框架的多目标帕累托Sarsa算法(Multi-Pareto Sarsa, MPS)。MPS算法以向量集的形式更新行为价值,使用一种新的基于投票法的集合评估机制代替传统的行为策略,智能体通过基于投票法的集合评估机制评估行为空间中每个行为对应的行为价值向量集,然后根据评估结果选择当前状态下的最优行为。实验结果表明,MPS算法与已有的MPQ、PQL算法相比有较好的收敛性,且MPS算法与MPQ算法相比在超体积性能上有很大的提升。
- 单位