基于重抽样优选缓存经验回放机制的深度强化学习方法

陈希亮; 曹雷; 李晨溪; 徐志雄; 何明

doi:10.13195/j.kzyjc.2017.0261

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于重抽样优选缓存经验回放机制的深度强化学习方法

作者：陈希亮; 曹雷; 李晨溪; 徐志雄; 何明

来源：控制与决策, 2018, 33(04): 600-606.

DOI：10.13195/j.kzyjc.2017.0261

摘要

针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升.

单位
解放军理工大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-24 12:06

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号