摘要

从机器学习的角度理解,车辆路径规划问题(VRP)可转化为单代理有限状态空间的强化学习问题进行研究。针对小规模VRP问题,提出时间差分模型,使用Sarsa和Q-learning算法进行优化。针对大规模VRP问题,构建环境模型,通过蒙特卡洛法优化代理策略和值函数。在公开数据集上的实验结果表明,强化学习能有效求解小规模VRP问题,并在大规模VRP问题上超过一般的启发式算法。