摘要
由于传统的调度方法在求解大规模柔性作业车间调度问题中存在短视性、计算时间过长和算法参数难以确定等问题,因此提出了一种有效求解大规模柔性作业车间调度问题的深度强化学习方法。首先,将柔性作业车间调度问题转化为一个多智能体马尔科夫决策过程。然后,构建一个用于求解柔性作业车间调度问题的演员评论家模型,演员网络根据状态输出调度规则,智能体根据调度规则选择合适的工序,评论家网络根据状态和奖励对演员网络的动作进行评估。最后,采用不同规模的柔性作业车间调度问题实例验证该方法的性能。实验结果表明,该方法的求解质量优于启发式调度规则,求解效率优于元启发式算法。
- 单位