"货到人"拣选系统背景下,对AGV的路径进行优化是提高拣选效率、降低运行成本的关键。首先,针对仓储环境引入路径表概念,存储相似路径,减少重复搜索同一路径的工作;其次,针对传统Q学习收敛速度慢及容易陷入局部最优解问题,借助模拟退火算法中的动态探索因子思想以一定概率跳出局部最优解。最后,采用栅格法建立仿真环境,将改进Q学习算法与A*算法、传统Q学习算法对比进行仿真实验,实验结果验证了本方法的有效性。