摘要

从攻击者角度分析入侵意图和渗透行为对于指导网络安全防御具有重要意义。然而,现有的渗透路径大多依据瞬时的网络环境构建,导致路径参考价值降低。针对该问题,本文提出了一种基于最大熵强化学习的最优渗透路径生成方法,该方法可以在网络环境动态变化的情况下,以探索的形式捕获多种模式的近似最优行为。首先,依据攻击图和漏洞评分对渗透过程进行建模,通过量化攻击获益来刻画渗透行为的威胁程度;接着,考虑到入侵行为的复杂性,开发基于最大熵模型的Soft Q-学习方法,通过控制熵值和奖励的重要程度保证求解渗透路径的过程具有稳定性;最后将该方法应用于动态变化的测试环境上生成高可用的渗透路径。仿真实验结果表明,相比现有基于强化学习的基准方法,本文所提方法具有更强的环境适应性,能够以更低的代价生成更高收益的渗透路径。