强化学习稀疏奖励算法研究&mdash;&mdash;理论与实验

杨瑞; 严江鹏; 李秀<sup>*</sup>

doi:10.11992/tis.202003031

摘要

近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀疏奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。

单位
清华大学深圳国际研究生院; 清华大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-05-25 11:10

强化学习稀疏奖励算法研究——理论与实验

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友