摘要

针对追捕条件下速度劣势但加速度优势的旋翼无人机逃逸问题,结合无人机飞行过程中动力学约束,提出一种基于深度Q网络的无人机逃脱方法。该方法基于人工势场法改进无人机在强化学习过程中的奖励函数,通过合理的单步奖励,解决稀疏奖励问题。建立追捕者与逃逸旋翼无人机的仿真环境,通过模型仿真追捕环境下无人机的逃脱过程,使无人机不断学习逃脱动作决策方法。实验表明,运用改进的奖励函数的训练效果与普通奖励函数相比学习效果更好,旋翼无人机能够通过学习获得应对追捕的逃脱方法。