摘要
针对由于网络流量数据不平衡而导致入侵检测模型检测率低的问题,提出了一种基于聚类和实例硬度的入侵检测过采样方法(CHO)。首先,测算少数类数据对应的硬度值并作为输入,即计算其近邻样本中多数类的样本所占的比例;接下来,运用Canopy聚类方法对少数类数据进行预聚类,将所得到的聚类数值作为K-means++聚类方法的聚类参数再次聚类;然后,计算不同簇的平均硬度和标准差,将平均硬度作为统计学最优分配原理中的"调查费用",并由该原理确定各簇中应生成的数据量;最后,根据硬度值的大小进一步识别簇中的"安全"区域,并在各簇的安全区域中由插值法生成指定数量的数据。与合成少数类过采样技术(SMOTE)等方法在6组公开的入侵检测数据集上进行对比实验,所提方法在曲线下面积(AUC)和G-mean上均取得了值为1.33的最优值,且相较于SMOTE在其中4组数据集上的AUC平均提高了1.6个百分点。实验结果表明该方法适用于处理入侵检测中的不平衡问题。
- 单位