摘要
算力网络旨在深度融合算力资源与网络资源,实现多种资源的高效协同,最大化资源利用率.算力网络边缘部分通常采用分布式软件定义网络架构,构建逻辑集中但物理分散的控制平面,并将其与数据平面分离,实现全网算力资源与网络资源的统一调度与编排.然而,攻击者极易将控制平面作为首要攻击目标,发起分布式拒绝服务攻击(distributed denial of service, DDoS),使控制平面大面积失效,严重影响计算任务的实时传输.为了解决算力网络中的安全问题,本文创新性地提出了基于深度强化学习的算力网络主动防御方法.首先,构建了马尔可夫决策过程(Markov decision process, MDP)模型来准确表征交换机与控制器映射关系的动态性,并设计了一种基于节点介数的奖励函数来反映DDoS攻击对控制器部署方案的影响.其次,综合考虑多种网络约束,将多控制器部署问题建模为约束满足问题,其可行解空间即为MDP模型的动作空间.最后,提出了一种基于深度强化学习的主动防御算法,迭代优化动作选择策略,智能化选择多控制器部署方案.实验结果表明,该方法在网络性能几乎无损的前提下,相比基准方法能够分别提升13%和8%的防御成功率.
- 单位