摘要

针对卫星通信系统中的任务调度问题,基于深度强化学习框架提出了一种多分支深度Q网络模型的卫星通信任务调度方法。通过引入任务列表分支网络和资源池分支网络,该模型能够同时提取卫星任务状态和卫星资源池状态的特征,并通过价值分支网络计算动作价值函数;在模型输出部分引入了包括任务选择与资源优先级动作的多个动作的选择,增加了调度动作的选择空间。实验结果表明,在非零浪费和零浪费数据集上,多分支深度Q网络模型与启发式方法相比在提高平均资源占用性能的同时显著降低了运行的时间开销。