在亚马逊棋评估函数模型中进行参数调试,主要由人工依靠经验反复实验来实现,效率较低且无法保证精度。针对人工调参效率低下、精确度不足的问题,可借助机器学习的方法来弥补。采用强化学习中Q学习的思路,构造一种具有自学习能力的网络结构,利用计算机自身反复模拟对局与迭代,实现评估函数调参工作的自动化。实验结果表明:当训练达10 000次时,模型各结点Q值会趋于收敛,说明此时程序可以做出稳定合理的调参操作;在博弈实战中,模型调参后的程序也表现出了较强的棋力。