摘要

将柔性作业车间调度问题转化为马尔可夫决策过程,提出了集成5种深度Q网络(DQN)优化的算法D5QN。构建马尔可夫过程中,提取一组特征来表述状态,通过调度规则的组合设计出三组动作,通过直接和间接两种方式共同描述奖励。与基于规则、元启发式和其他强化学习算法的比较证明,所提方法可进一步缩短求解时间,并具有可行性和有效性。