贝叶斯学习与强化学习结合技术的研究

陈飞; 王本年; 高阳; 陈兆乾; 陈世福

摘要

强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝...

单位
南京大学; 计算机软件新技术国家重点实验室

收藏分享被引浏览

更新时间：2020-06-16 17:49

贝叶斯学习与强化学习结合技术的研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友