摘要

异常检测系统收集的数据集中包含大量冗余和不相关特征属性,导致检测算法效率降低、实时性不高,提出一种基于信息熵和改进K-means聚类的混合异常检测特征选择方法。该方法主要分为两个阶段:首先使用信息熵和相关度选择出一组包含大部分信息量的非冗余特征;然后提出一种改进的K-means聚类算法,并利用该算法选择出具有聚类性能的最优特征子集。实验结果表明,该方法所选的异常检测特征集不仅能保持原始特征的异常检测性能,提高检测效率,且相比其他算法具有更低的误检率。

  • 单位
    信息工程大学