摘要

针对高度“中心”连接的多园区网络中,负载不均衡造成传输时延长和网络拥塞问题,提出一种基于自适应多采样机制的决斗深度强化网络(adaptive multi-sampling Dueling deep Q-network, AMD-DQN)动态路由优化算法。首先,在网络模型中引入决斗网络(dueling DQN)的思想,同时对多层感知器组成结构进行中心化处理改进,防止高估计价值函数;然后,经验回放机制采用了自适应多采样机制,该机制融合了随机、就近和优先采样方式,根据负载情况进行自适应调整,并根据权值概率随机选取采样模式;最后,利用AMD-DQN网络结构结合强化学习信号和随机梯度下降来训练神经网络,选出每步最大价值动作,直至传输成功。实验结果表明,相比传统的DQN和Dueling DQN算法,AMD-DQN算法平均时延为128.046 ms,吞吐量达到5.726个/s,有效减少了数据包的传输时延,提高了吞吐量,同时从5个方向对拥塞程度进行评价,取得了较好的实验结果,进一步缓解了网络的拥塞。

全文