强化学习控制方法及在类火箭飞行器上的应用

黄旭; 柳嘉润<sup>*</sup>; 贾晨辉; 骆无意; 巩庆海; 冯明涛

摘要

针对类火箭飞行器进行了基于深度确定性策略梯度(DDPG)算法的姿态控制研究，完成了算法设计和智能体训练，并进行了仿真与飞行试验。基于飞行器六自由度模型搭建飞行模拟器，针对悬停模式，以多拍姿态角跟踪误差以及姿态角速度作为智能体可观测的状态，控制指令作为智能体动作，设计了含有跟踪误差、控制指令变化量以及一次性奖励的回报函数，在模拟器中训练智能体并完成了从仿真环境到真实系统的迁移。研究中未按传统设计流程对飞行器模型进行通道分解等简化，轻量化神经网络形式的智能体仅通过与模拟器交互的形式学习姿态控制策略，智能体在仿真和飞行试验中都展现出了良好性能。

单位
北京航天自动控制研究所

收藏分享被引浏览

更新时间：2024-03-19 03:44

强化学习控制方法及在类火箭飞行器上的应用

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友