摘要
如何在动态变化的复杂网络中实现高效的路由选择是当前的研究热点之一。Q-学习是一种常用的强化学习算法,通过与环境的不断交互来解决未知环境中最优控制问题,能有效地完成在线式学习任务。本文提出一种基于秩的Q-路由选择(Rank-based Q-routing,RQ routing)算法。RQ routing算法在Q-学习的框架下,保留了Q-路由选择(Q-routing)算法的高效性,引入能动态计算的秩函数,用于表示当前状态在场景中的优先级,用以求解路由选择的最优解,避免等待队列过长,减少网络拥堵,提高传输速度。RQ routing算法中的秩函数具有灵活性,使用不同的秩函数即可满足各种场景的需求,保证了算法具有更好的泛化能力,克服了传统Q-routing应用场景单一的不足。实验验证了本文算法的有效性。
- 单位