摘要
针对未设计启发式算法的组合优化问题设计统一的解决方案已成为机器学习领域的一个研究热点,目前成熟的技术主要针对于静态的组合优化问题,但是对于加入动态变化的组合优化问题还没有得到充分的解决。本文提出了一个将多头注意力机制与分层强化学习结合来求解动态图上的旅行商问题的轻量级模型Dy4TSP。首先,模型以多头注意力机制为基础的预测网络处理来自图卷积神经网络的节点表征向量输入;然后,借助分布式强化学习算法训练来快速的预估图中每个节点被输出作为最优解的可能性,使得模型在不同的可能性中全面探索问题的最优解决方案空间;最后,训练后的模型将实时地生成满足具体目标奖励函数的动作决策序列。该模型在3个组合优问题上进行了评估,实验结果表明,本文的模型在经典旅行商问题系列算法中解的质量大约比开源求解器LKH3高0.15到0.37个单位,明显优于EGATE等最新的算法,并且在其他的动态旅行商问题中可以达到0.1到1.05的最优路径差距,结果也略胜一筹。
- 单位