摘要
为了有效地解决不平衡数据中边界点直接被删除的问题,保持多数类数据的信息,提出一种基于聚类的加权边界点集成欠采样算法。首先该算法通过提取少数类数据集的数据点作为多数类数据集的初始聚类中心个数进行聚类;然后引入变异系数将边界点识别出来,对识别出的边界点进行加权,使得加权后的边界点可以加入到不平衡数据的处理中;再利用簇密度将多数类数据集分为高密度簇和低密度簇,把低密度簇删除;最后获得约简后的多数类样本集。再将约简后的多数类样本和少数类样本结合,形成平衡的数据集,利用Ada Boost对其进行训练,得到最终的分类模型。利用该方法可以实现对数据集的约简操作,提高执行效率。结果表明,所提方法可以有效地处理不平衡数据的问题,提高了不平衡数据加权边界点集成欠采样算法的执行效率和结果的精确性。
- 单位