摘要
针对传统强化学习方法在机器运动规划领域,尤其是无人机避障问题上存在价值函数过度估计以及部分可观测性导致网络训练过程中训练时间长、难以收敛的问题,提出一种基于深度循环双Q网络的无人机避障算法。通过将单网络结构变换为双网络结构,解耦最优动作选择和动作价值估计降低价值函数过度估计;在双网络模块的全连接层引入GRU循环神经网络模块,利用GRU处理时间维度信息,增强真实神经网络的可分析性,提高算法在部分可观察环境中的性能。在此基础上,结合强化学习优先经验回放机制加快网络收敛。在仿真环境中分别对原有算法以及改进算法进行测试,实验结果表明,该算法在训练时间、避障成功率以及鲁棒性方面均有更好的性能。
-
单位航天学院; 上海航天控制技术研究所; 西北工业大学; 中国航天科技集团有限公司