针对复杂瞬变的多用户多队列多数据中心云计算环境中作业调度困难的问题,提出一种基于深度强化学习的作业调度方法。建立了云作业调度系统模型及其数学模型,并建立了由传输时间、等待时间和执行时间三部分构成的优化目标。基于深度强化学习设计了作业调度算法,给出了算法的状态空间、动作空间和奖赏函数。设计与开发了云作业仿真调度器,完成作业的仿真调度。仿真结果表明,相比随机调度、轮转调度、首次适应、最佳适应等基准算法,提出的算法能够有效降低作业的整体完工时间。