基于深度强化学习的掼蛋扑克博弈求解

葛振兴; 向帅; 田品卓; 高阳<sup>*</sup>

摘要

在不确定信息的复杂环境下进行决策是现实中人们经常面对的困难之一，因此具有能够进行良好决策的能力被视为人工智能的重要能力之一．而游戏类型的博弈作为对现实世界的一种高度抽象，具有良定义、易检验算法优劣等特点，成为研究的主流．其中以掼蛋为代表的扑克类博弈不仅具有他人手牌未知这样的难点，还由于可选出牌动作与他人手牌情况数量庞大等特点，难以进行高效求解．因此，提出了一种软深度蒙特卡洛方法（soft deep Monte Carlo，SDMC）求解方法．该方法能够更好地融合领域知识，加快策略学习速度，并采用软动作采样策略调整实时决策，提升策略胜率．所提出的软深度蒙特卡洛方法训练出的策略模型参加第2届“中国人工智能博弈算法大赛”，获得冠军．与第1届比赛冠军策略和第2届其他策略模型的实验对比证明了该方法在解决掼蛋扑克博弈中的有效性．

单位
上海大学; 计算机软件新技术国家重点实验室; 南京大学; 南京大学深圳研究院

收藏分享被引浏览

更新时间：2024-01-09 10:41

基于深度强化学习的掼蛋扑克博弈求解

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友