基于模型的强化学习中可学习的样本加权机制

黄文振; 尹奇跃; 张俊格; 黄凯奇

doi:10.13328/j.cnki.jos.006489

摘要

基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练,因而有望提高样本效率.但由于训练样本不足等问题,构建的环境模型往往是不精确的,其生成的样本也会因携带的预测误差而对训练过程产生干扰.针对这一问题,提出了一种可学习的样本加权机制,通过对生成样本重加权以减少它们对训练过程的负面影响.该影响的量化方法为,先使用待评估样本更新价值和策略网络,再在真实样本上计算更新前后的损失值,使用损失值的变化量来衡量待评估样本对训练过程的影响.实验结果表明,按照该加权机制设计的强化学习算法在多个任务上均优于现有的基于模型和无模型的算法.

单位
中国科学院; 中国科学院自动化研究所; 中国科学院大学

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-27 17:03

基于模型的强化学习中可学习的样本加权机制

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友