基于非策略Q学习方法的两个个体优化控制

肖振飞; 李金娜<sup>*</sup>

doi:10.14107/j.cnki.kzgc.CPCC2020-050

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于非策略Q学习方法的两个个体优化控制

作者：肖振飞; 李金娜^*

来源：控制工程, 2022, 29(10): 1874-1880.

DOI：10.14107/j.cnki.kzgc.CPCC2020-050

摘要

针对线性离散时间系统的非零和博弈问题，提出一种非策略Q学习算法。首先，提出非零和博弈优化问题，并且严格证明根据每个个体性能指标定义的值函数为线性二次型。然后，基于动态规划和Q学习方法，给出非策略Q学习算法，得到非零和博弈的近似最优解，实现系统的全局纳什均衡。此算法不要求系统模型参数已知，完全利用可测数据学习纳什均衡解。最后，算例仿真验证了方法的有效性。

单位
辽宁石油化工大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-20 20:25

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号