摘要
路由是网络基础架构稳定运行的保障,是支撑下一代网络持续发展的关键功能。如今,网络流量的快速增长和服务需求的不断变化使传统路由算法面临严峻的挑战。近年来,深度强化学习在解决复杂连续控制问题上表现出良好的效果。为了解决传统路由算法的一系列弊端,将深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)与路由场景相结合,提出一种基于深度强化学习的新型动态路由算法(DDPG4Net);随后,在自行开发的网络模拟器RL4Net上对该算法的效果进行了验证。
- 单位