针对多机空战对抗场景中高维状态-行为空间约束下兵力博弈决策困难的问题,采用基于深度强化学习的兵力智能体决策生成策略,提出面向兵力智能博弈的态势认知和奖励回报生成算法,构建基于混合的智能建模方法的行为建模分层框架。解决了强化学习过程中存在的稀疏奖励技术难点,为解决大规模、多机型、要素多的空战问题提供一种可行的强化学习训练方法。