摘要

为了解决模型过度依赖与过度估计的问题,提出一种基于传统深度强化学习(DRL)的抑制过度估计深度Q网络(SQDQN)算法,来建立全局路径规划策略。该SQDQN算法,结合深度Q网络(DQN)算法与信息熵,来抑制过度估计;借助信息熵,实时评估更新过程,来抑制DQN策略算法过度地估计损害性能;借助SQDQN算法与环境模型的交互作用,建立了获取全局路径规划策略的环境模型。结果表明:与DQN算法相比,SQDQN算法在20次实验中3次选择为更优策略;与Dijkstra传统路径规划方法相比,SQDQN算法所规划路程通行时间减少11.32%;本文的全局路径规划策略,减少了由于DQN对动作预期过高所导致的输出错误动作。