摘要

针对具有模糊加工时间和模糊交货期的作业车间调度问题,本文以最小化最大完工时间为目标,以近端策略优化(Proximal Policy Optimization,PPO)算法为基本优化框架,提出了一种LSTM-PPO(Proximal Policy Optimization with Long short-term memory)算法进行求解.首先,设计了一种新的状态特征对调度问题进行建模,并且依据建模后的状态特征直接对工件工序进行选取,更加贴近实际环境下的调度决策过程.其次,将长短期记忆(Long short-term memory,LSTM)网络应用于PPO算法的行动者-评论者框架中,解决了传统模型在问题规模发生变化时难以扩展的问题,使智能体能够在工件、工序、机器数目发生变化时,仍然能够获得最终的调度解.在所选取的模糊作业车间调度的问题集上,实验验证了该算法能够取得更好的性能.

全文