摘要

深度强化学习具有较强的决策能力和泛化能力,常被应用于软件定义网络(SDN,software defined network)的服务质量(QoS,quality of service)优化中。但传统深度强化学习算法存在收敛速度慢和不稳定等问题。提出一种基于深度强化学习的服务质量优化算法(AQSDRL,algorithm of quality of service optimization based on deep reinforcement learning),以解决SDN在数据中心网络(DCN,data center network)应用中的QoS问题。AQSDRL引入基于softmax估计的深层双确定性策略梯度(SD3,softmax deep double deterministic policy gradient)算法实现模型训练,并采用基于Sum Tree的优先级经验回放机制优化SD3算法,以更大的概率抽取具有更显著时序差分误差(TD-error,temporal-difference error)的样本来训练神经网络,有效提升算法的收敛速度和稳定性。实验结果表明,所提AQSDRL与现有的深度强化学习算法相比能够有效降低网络传输时延,且提高网络的负载均衡性能。