摘要

针对类火箭飞行器进行了基于深度确定性策略梯度(DDPG)算法的姿态控制研究,完成了算法设计和智能体训练,并进行了仿真与飞行试验。基于飞行器六自由度模型搭建飞行模拟器,针对悬停模式,以多拍姿态角跟踪误差以及姿态角速度作为智能体可观测的状态,控制指令作为智能体动作,设计了含有跟踪误差、控制指令变化量以及一次性奖励的回报函数,在模拟器中训练智能体并完成了从仿真环境到真实系统的迁移。研究中未按传统设计流程对飞行器模型进行通道分解等简化,轻量化神经网络形式的智能体仅通过与模拟器交互的形式学习姿态控制策略,智能体在仿真和飞行试验中都展现出了良好性能。

  • 单位
    北京航天自动控制研究所