摘要

为了快速准确完成网络安全数据分类,提出了基于数据驱动的网络安全数据分类方法。利用基于数据驱动的K-means聚类算法通过初始中心选取和K值的确定聚类分析网络安全数据,采用随机森林算法完成聚类数据预处理,剔除网络数据的不相关特征属性,并利用领域粗糙集算法提取特征,去除冗余数据后,建立基于XGBoost算法的分类模型,通过设置Booster参数、学习目标参数和通用参数,并利用网格搜索法自动优化选择参数,实现网络安全数据分类。实验表明,该方法在网络安全数据分类应用中平均查准率、平均召回率高,且数据分类时间短,正常数据和异常数据分类准确率均可达95%以上。

  • 单位
    武汉市疾病预防控制中心

全文