摘要

针对传统深度Q学习算法在AGV路径规划问题容易过估计和收敛效果不好的问题,提出一种改进的双深度Q学习算法,通过引入优先经验回放机制和基于启发式信息的连续奖励函数,提高AGV智能体的有效训练,利用贪婪策略和玻尔兹曼策略结合的动作选择策略在与环境交互的训练中引导AGV智能体充分探索环境。仿真实验结果表明,所提出的算法能够规划出良好的AGV路径,而且在算法的稳定性和收敛速度上有所提升。