摘要

带时间窗约束的同时取送货车辆路径问题(VRPSDPTW)是NP难问题,属于约束较复杂的车辆路径问题,在现代物流中被广泛应用。提出深度强化学习Memetic算法求解该问题,将Memetic算法求解VRPSDPTW问题中的大邻域搜索过程建模成马尔可夫决策过程,构建编码器-解码器架构的深度神经网络模型完成大邻域搜索中的移除操作。编码器对当前解中各结点的个体特征和位置特征进行信息交互,解码器设计了非自回归和自回归两种网络结构供选用于输出需要移除的结点,强化学习算法训练神经网络模型。并设计了混合策略,将手工启发式引入决策环境中,对手工启发式策略无法跳出局部最优的状态用深度强化学习针对性学习训练进一步提高。仿真实验在小中大规模VRPSDPTW算例上进行,提出的算法与手工启发式算法和其他学习算法进行了比较,提出的混合策略与单一策略进行了比较,实验结果显示提出的算法具有更强的跳出局部最优的能力,能在有效的时间内求得比对比算法更优的解,为求解大规模问题提供了快速求解的思路和方法。此外,进行了消融实验来表明提出算法融合的新组件的有效性。