基于PID控制更新的Sarsa强化学习算法及应用

吴雯珑; 龚谊承

doi:10.12677/AAM.2022.1112919

摘要

针对强化学习中Sarsa算法收敛速度慢且效果不稳定的问题，考虑到PID控制操作简单且鲁棒性高，提出基于PID控制优化的Sarsa算法，即Pid_Sarsa。其主要思想是将Sarsa算法中Q值的迭代方式改进为三项之和，分别对应PID控制中的比例、积分和微分，体现了对当前、过去和未来的误差进行控制的思想，理论上提高了样本利用率。为了对比Pid_Sarsa算法与Sarsa和n_Sarsa(取n = 5)两种传统算法的效果，选择悬崖寻路这一经典路径规划游戏作为算例，实验表明：Pid_Sarsa算法收敛速度更快、效果更稳定，且得到的路径安全程度比Sarsa算法高2.38%，比5步Sarsa算法高4.76%。

全文

访问全文

收藏分享被引浏览

更新时间：2024-09-23 19:52

基于PID控制更新的Sarsa强化学习算法及应用

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友