摘要

提出了一种基于连续动作集强化学习的无人机机动决策方法。通过Actor-Critic强化学习构架下的NRBF神经网络输出状态真实效用值与连续动作控制变量,效用值与动作控制变量的输出层共用隐层以简化网络结构。结合相对熵理论设计隐层节点的自适应调整方法,有效减少了隐层节点数目。对输出动作控制变量,采用基于高斯分布的连续动作选择策略,并依据训练次数调整随机动作控制变量的概率分布,提升了网络对未知策略的探索能力。在3种不同空战态势下的仿真验证了该方法的有效性,结果表明该方法生成的策略鲁棒性较强,动作控制量更加精确。

  • 单位
    空军工程大学航空航天工程学院