一种自适应的多臂赌博机算法

章晓芳; 周倩; 梁斌; 徐进

摘要

多臂赌博机问题是强化学习中研究探索和利用两者平衡的经典问题,其中,随机多臂赌博机问题是最经典的一类多臂赌博机问题,是众多新型多臂赌博机问题的基础.针对现有多臂赌博机算法未能充分使用环境反馈信息以及泛化能力较弱的问题,提出一种自适应的多臂赌博机算法.该算法利用当前估计值最小的动作被选择的次数来调整探索和利用的概率(chosen number of arm with minimal estimation, CNAME),有效缓解了探索和利用不平衡的问题.同时,该算法不依赖于上下文信息,在不同场景的多臂赌博机问题中有更好的泛化能力.通过理论分析给出了该算法的悔值(regret)上界,并通过不同场景的实验结果表明:CNAME算法可以高效地获得较高的奖赏和较低的悔值,并且具有更好的泛化能力.

单位
苏州大学; 计算机软件新技术国家重点实验室; 南京大学

收藏分享被引浏览

更新时间：2024-04-10 03:02

一种自适应的多臂赌博机算法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友