构建一种将柔性作业车间调度问题转化为马尔可夫决策过程的方式,并提出集成5种DQN优化的算法D5QN求解。构建马尔可夫过程时,提取一组特征来表述状态,设计3组包含若干复合规则来表述动作,通过直接奖励和间接奖励来映射整个过程的奖励;求解时将5种DQN优化算法集成为D5QN求解。使用文献中相同的实例测试,并将计算结果与文献中基于规则、基于元启发式和基于其他强化学习算法的测试结果进行比较,使得最大完工时间最小化的指标进一步提高,验证所提出的方法的可行性和有效性。