摘要
近几年,计算机围棋成功引发了又一轮的人工智能热潮,从计算机围棋中发展出来的AlphaZero框架成功地应用在其他完全信息条件下的二人有限零和博弈问题,进而展示出了深度学习和强化学习在智能决策领域的优异性能。本文首先介绍了AlphaZero框架中三个核心技术:深度学习、强化学习以及蒙特卡罗树搜索,然后详细说明了AlphaZero框架两个关键阶段——AlphaGo和AlphaGo Zero的基本原理,最后,对AlphaZero框架提出了自己的思考,并基于对AlphaZero原理的剖析讨论了其对军事决策智能化的启示。