摘要
基于深度学习模型的有监督训练依赖于大量高质量标定数据,但众多小众计算机博弈比赛棋种存在缺少人类对局记录作为训练样本的问题,因此在使用深度学习模型前如何生成一个合理标定的局面数据集是值得研究探讨的问题。针对点格棋博弈问题,提出了一种数据哈希去重以及局面标定方法。根据不同阶段回合局面数据的特点,通过alpha-beta完全搜索、回溯标定、并行化MCTS算法标定以及对称扩展技巧,收集并标定不同回合数的点格棋局面样本。实验共获得了包含15 000 000个带标定点格棋局面样本的数据集,为基于深度学习模型的点格棋有监督训练提供了保障。此外,所提方法也为其他棋种训练数据的获取提供了有价值的借鉴。
- 单位