摘要

针对高速无人飞行器上升段在线轨迹规划需要实现多约束下在线快速求解的问题,首先搭建了飞行器的运动和动力学模型,给出了轨迹规划所面临的约束条件;并根据约束条件和飞行特性,基于近端策略优化(PPO)策略梯度优化设计了满足任务要求的动作状态空间和奖励评价函数。其次,基于飞行器上升段轨迹规划具有很强时间记忆性的特性,在传统PPO算法基础上引入长短期记忆网络(LSTM)网络结构,利用PPO-LSTM算法解决了高速飞行器上升段在线轨迹规划问题,训练出能够根据飞行器状态实时规划最优攻角策略的模型。最后,根据蒙特卡洛仿真对算法性能进行验证,结果表明,相比于传统PPO和粒子群算法,本文算法终端状态的均方根误差减小了约50%,充分证明了本文算法的优越性和有效性。

  • 单位
    北京空天技术研究所

全文