摘要

针对目前入侵检测数据集存在的数据类型不平衡问题,提出了一种基于最高密度点的入侵检测数据过采样方法。方法提出了一种基于密集和稀疏相结合的数据生成方案,稀疏生成方案是基于最高密度点和类内平均距离将原本少数类较为稀疏的聚类范围缩小到少数类较为密集的区域,增加了少数类样本被过采样的可能性;密集方案与其它方法不同的是在非密集区抛弃了传统的目标样本分组的思想,采用放射型SMOTE方法,使得在非密集区域只关注该聚类中目标类样本的最高密度点和非密集区的样本点,从而来避免样本重叠问题。将该方法在NSL-KDD和UNSW-NB15数据集上与其它方法进行实验对比,结果表明上述方法增强了决策边界,减少了噪声的生成,有效地解决了数据不平衡问题。

全文