摘要

针对对抗性仿真实验环境缺数据、少知识、难学习,智能体策略突破困难的问题,结合课程学习(curriculum learning, CL)思想,提出一种基于Rule-N/MSP体系的智能体自我博弈(self-play, SP)训练方法。通过设计分级课程,采用专家经验设计规则耦合的智能体对手,引导智能体进行热启动,初步掌握决策能力;开展经典自我博弈(naive SP,NSP)训练,丰富对战数据,稳步提升能力;进行成长式自我博弈(mature SP,MSP)训练,固强补弱,寻求策略突破。形成Rule-N/MSP训练方法,智能体决策能力不断提升,进一步提高智能体训练效率。构建对抗性仿真实验环境进行实验验证,发现使用该方法训练的智能体较仅通过规则对战训练的智能体胜率提高约12%,证明了方法的有效性,为智能决策领域尤其是智能体训练研究提供了有益借鉴。

  • 单位
    中国人民解放军陆军工程大学