摘要

针对求解最小化最长完工时间的作业车间调度问题,提出一种基于虚拟仿真与深度强化学习联合优化的方法,旨在缩小调度问题模型中理想与实际生产车间之间的差距。在Plant Simulation平台搭建仿真车间模型作为强化学习环境,以套接字方式交互反馈奖励值。应用近端策略优化强化学习算法对动作选择策略网络与状态评价网络进行训练。算例表明,该虚拟仿真技术与强化学习的集成调度具有良好的鲁棒性与泛化性,且相较于其他算法优化了调度性能,加快了求解速度。为智能制造工程及相关专业基于问题式学习的实践类课程提供了典型应用案例。

全文