摘要
为了能让四旋翼无人机的姿态控制器具有强大的目标值追踪与抗外部干扰的能力,提出了一种基于参考模型的深度确定性策略梯度的四旋翼无人机姿态控制器设计。该方法通过神经网络,将四旋翼无人机的状态直接映射到输出。本文的强化学习算法是结合深度确定性策略(deep deterministic policy gradient,DDPG)和深度神经网络所设计的。在DDPG算法结构中,进一步加入参考模型,规避控制量太大造成的系统超调,增强了系统的稳定性以及鲁棒性。同时,修改了强化学习中奖励的构成,成功消除了系统的稳态误差。经过研究实验表明,该控制方法可以对目标值进行快速地追踪且有着较强的鲁棒性,可见该控制器相比于传统的控制器,提高了其目标值追踪能力以及抗干扰能力。
-
单位自动化学院; 南京信息工程大学