摘要

对蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)算法在游戏"2048"中的运行机制进行了分析研究。在MCTS过程中,利用上限置信区间(Upper Confidence Bound Apply to Tree,UCT)算法计算当前局面所有可移动4个方向节点的UCT值,选择使节点价值最大的方向作为下一次的移动方向,再经过扩展、模拟阶段,直到达到游戏限制范围后进行反向传播,以当前路径的局面评估值对其父节点、祖父节点直至根节点的节点价值进行更新,以此得到最佳移动方向,进而得到最优选择策略。