摘要
随着卫星通信技术的发展,星座规模的不断扩大,测运控一体化成为主流趋势。星座规模大、调度对象多、复杂操作联合控制给卫星网络测运控一体化资源调度带来巨大的挑战。受制于调度算法求解效率低、约束复杂等问题,传统的测运控资源调度技术采用提前上注测控指令,按照固定部署执行任务,难以满足突发事件与紧急任务的调度需求。因此,提出一种基于多智能体演员-评判家确定性策略梯度算法的测运控一体化资源调度方法,采用集中式训练和分布式执行的方法,建立测运控一体化任务的多智能体模型,通过分析邻居智能体局部信息计算调度策略,提高任务的响应速度。依据测运控一体化资源调度问题中的模型和约束,选择影响意义大、可解释的约束,建立多智能体资源调度强化学习模型,并进行仿真测试。测试结果显示,该方法的任务收益较传统方法提高22%。
- 单位