摘要
针对传统高维不平衡数据集的分类算法存在偏向多数类、忽视少数类等问题,本文提出一种基于密度聚类和重要性度量的特征选择算法(DBIM)。首先通过随机降采样的方法构造出多个平衡子集,使用DBSCAN密度聚类方法作为基分类器生成初始特征子空间。然后按照重要度对特征进行排序选择出较强分类的特征。最后,为了避免特征之间的冗余性,设计基于类分布的权重指标与冗余性评价指标相结合的方法进行计算,生成高质量的特征子集。在8个公开数据集上的实验结果表明,本文提出DBIM算法可以生成高相关度且低冗余度的特征子集,对高维不平衡数据集进行有效降维,提高分类性能。
- 单位