基于核方法的连续动作Actor-Critic学习

陈兴国; 高阳; 范顺国; 俞亚君

doi:10.16451/j.cnki.issn1003-6059.2014.02.014

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于核方法的连续动作Actor-Critic学习

作者：陈兴国; 高阳; 范顺国; 俞亚君

来源：模式识别与人工智能, 2014, 27(02): 103-110.

DOI：10.16451/j.cnki.issn1003-6059.2014.02.014

摘要

强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Actor根据奖赏不作为原则更新动作概率,Critic采用基于核方法的在线选择时间差分算法学习状态值函数.对比实验验证该算法的有效性.

单位
计算机软件新技术国家重点实验室; 南京大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-05-30 09:11

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号