摘要

提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难。提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法。针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进。将改进深度强化学习算法与DQN算法在同样的三维环境下进行仿真实验,从最优路径长度、损失函数值、得到稳定的奖励值、收敛速度等方面进行对比,改进深度强化学习算法比DQN算法得到很大的改善,说明改进的算法比DQN算法寻得了更优的策略。