双Q网络学习的迁移强化学习算法

曾睿; 周建<sup>*</sup>; 刘满禄; 张俊俊; 陈卓

doi:10.19734/j.issn.1001-3695.2020.09.0232

摘要

深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力。为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新。将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定。

单位
西南科技大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-18 03:20

双Q网络学习的迁移强化学习算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友