针对蓝军模型适应性和学习能力不足等问题,提出一种融合决策树和PPO强化学习的智能蓝军作战行为决策优化技术,在决策树运行过程中若智能体陷入决策困境,利用基于PPO算法训练的网络模型生成最优动作,确保其得以继续顺利高效执行,最后基于庙算·智胜平台开展对比实验,对优化技术进行了可行性和有效性验证。