摘要

为提升无人机飞行控制的智能化水平,本文在深度确定性策略梯度(DDPG)算法框架下对四旋翼飞行器进行目标高度控制.具体地,将系统状态通过神经网络模型映射到控制命令,通过训练出的actor网络对四旋翼进行控制.基于reward shaping理论,本文设计了一个新颖的体现越界惩罚的奖励函数,引导智能体在安全范围内运动.仿真结果表明:该策略能快速到达指定目标高度并悬停,响应速度快于PID算法;该策略关于质量、臂长具有泛化能力,验证了其有效性与鲁棒性.