摘要

提出了一种基于Markov决策过程的弹道导弹中段突防控制模型,并基于状态-动作对值函数建立了一种完全数据驱动的控制模型。为了加快深度神经网络的收敛速度、增强训练过程中的稳定性,引入了竞争架构和目标网络架构,设计了一种深度神经网络架构竞争双深度Q网络(D3Q)。对传统深度Q网络(DQN)的强化学习算法中的记忆池生成方法进行了改进,提升了训练样本质量。训练及验证结果表明,该方法实现了D3Q网络对弹道导弹中段突防最优控制模型的逼近。

全文