摘要
飞行器的自主智能避障一直是无人机领域的研究热点。相对于平面运动物体来说,飞行器的空间信息,以及对于避障的态势动作的控制更加复杂。由于飞行器在三维空间的动作的选择都是在一个连续动作空间内,所以本文提出将深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的强化学习方法应用在飞行器自主智能避障场景,并通过可视化仿真模拟算法效果。实验结果表明该方法能够很好地解决连续动作空间的动作选择问题,使得飞行器在障碍环境中探索出完整的避障路径,达到较好的应用效果。
- 单位