摘要
针对工件动态到达、处理时间不确定且机器须要弹性预防维护的等效并行机调度问题,以平均流程时间最小化为目标,提出了基于强化学习的动态调度方法.将调度过程作为马尔可夫决策过程,通过定义状态空间、行为空间、奖励函数与适应度函数,提出基于增强拓扑神经进化(NEAT)算法的动态调度方法.设计三种规模问题的实例,将基于NEAT的方法与最短路径树(SPT)、先装先卸(FIFO)调度规则及基于深度Q网络(DQN)的方法进行比较,结果表明:基于NEAT的方法相比基于DQN的方法能够以更短的训练时间获得更优、更稳健的调度方案,相比SPT和FIFO调度规则能够获得更优的目标值,利用训练好的NEAT模型对随机生成的大规模问题实例的快速高质量求解结果表明,基于NEAT的调度方法具有更好的泛化性能.
- 单位