摘要

提出了一种基于蒙特卡洛树和深度神经网络的强化学习方法,用于训练一个具有较高棋力水平的五子棋算法模型。该模型利用蒙特卡洛树搜索在给定的棋盘状态下进行自我对弈,通过策略价值网络评估每个可行的落子位置的先验概率和最终价值,并选择最优的落子方案。实验结果表明该模型具有较强的泛化能力,以此设计的五子棋博弈程序在2022年中国大学生计算机博弈大赛暨中国计算机博弈锦标赛中获得一等奖。