摘要
本发明公开了一种基于迁移强化学习的生产系统调度方法,包括步骤:(1)定义生产系统的状态和动作;(2)生产系统调度问题Q学习建模;(3)建立生产调度案例库;(4)计算目标任务与源任务的任务相似度,匹配知识迁移的案例集;(5)建立源任务与目标任务的动作映射关系,将源任务的动作知识迁移到目标任务;(6)计算目标任务状态与案例集中案例的状态相似度,匹配知识迁移的案例;(7)将选出案例的动作映射为目标任务的动作,并修正动作选择策略,实现知识迁移;(8)根据修正后的动作选择策略执行动作,更新状态和Q值表。本发明相对于Q学习提高了学习性能,有效解决了生产任务在线调度的实时性问题。
- 单位