摘要
针对传统无人机避障算法需要构建离线三维地图以及速度控制不连续、速度方向选择受限的问题,基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)的深度强化学习算法,对无人机连续型动作输出的端到端避障决策方法展开研究。建立了基于DDPG算法的端到端决策控制模型,该模型可以根据感知得到的连续状态信息输出连续控制变量即无人机避障动作;在UE4+Airsim的平台下进行了训练验证表明该模型可以实现端到端的无人机避障决策,与数据来源相同的三维向量场直方图(three dimensional vector field histogram, 3DVFH)避障算法模型进行了对比分析,实验表明DDPG算法对无人机的避障轨迹有更好的优化效果。
-
单位航天学院; 西北工业大学