摘要
将算力网络技术和时间敏感网络技术融合在一起,可以实现网络中高效率、确定性转发。但在一体化决策算力网络中的资源调度和路由规划以及时间敏感网络中的门控排布时会出现决策变量过多、计算复杂度过高、优化性能不足等问题。对此,可以利用基于深度强化学习方法的改进RBDQN算法优化门控,并采用贪婪算法协助路由路径规划。以平均时延、能量损耗和用户满意度为多优化指标建立效用函数。RBDQN算法与遗传算法相比,其收敛速度可提升数十倍;与传统深度强化学习方法相比,RBDQN算法在相同指标下效用函数的指标提升超过10%,收敛时间下降约50%。
-
单位北京邮电大学; 中国信息通信研究院