摘要

本发明公开一种基于深度强化学习的两目标批调度方法,包括:1、给出两目标单机批调度问题模型;2、利用加权和策略将两目标单机批调度模型分解为T+1个单目标模型,并采用对分查找和二叉搜索树的思想对单目标模型的权重值进行划分,得到T+1个单目标模型的目标函数;3、采用指针网络作为单目标模型的策略网络,采用多头注意力和卷积层作为单目标模型的评价网络,以构建深度学习的网络模型;4、根据单目标模型的目标函数,采用actor-critic算法对网络模型进行训练,得到训练后的网络模型。本发明通过两目标的分解和权值的划分,结合深度强化学习决策方法来得到调度方案,从而能提高机器的生产效率,减少运行成本和决策时间。