摘要

Web服务在网络服务中得到了广泛的应用,因此也成为了不法分子的主要攻击对象.现阶段针对Web攻击的检测技术可分为误用检测与异常检测.基于误用检测的Web异常检测存在规则特征库臃肿,维护困难,无法检测变形或新型Web攻击等不足;而基于异常检测存在特征提取困难,攻击流量数据远远少于正常流量数据的数据不平衡,以及检测率较低等问题.针对目前存在的不足,本文提出基于全流量的Web异常检测模型.采用SMOTE结合Tomek Links对数据过采样解决数据不平衡问题;采用基于基尼系数的特征重要性计算进行特征选择,降低特征维度;采用LightGBM(Light Gradient Boosting Machine)分类算法提高检测效率.本文采用UNSW-NB15数据集作为实验数据,实验结果表明,该模型对异常流量的检测效果较好,二分类检测率高达98. 30%,在多分类问题上,与Dendron等方法进行比较,检测率和准确率都有较大的提升,并且有较低的误报率和较高的检测效率.