现实中如何对海量流量进行网络攻击检测已成为一个难题。使用传统的机器学习攻击检测,需要对海量流量数据全部打上标签用于训练,显然是不合理且难以实现的。因此,提出了一种半监督的基于关联知识图和大数据的网络攻击检测技术。首先,基于Spark计算引擎高性能处理流量日志。其次,提取日志里的信息,以IP、Domain和文件作为关联知识图的节点,将它们的相关性作为边进行绘图。最后,基于关联知识图中已知的部分节点信息,通过聚类算法和污点传播算法完成整个攻击的检测。