基于密度峰值聚类的自适应欠采样方法

作者:崔彩霞; 曹付元; 梁吉业*
来源:模式识别与人工智能, 2020, 33(09): 811-819.
DOI:10.16451/j.cnki.issn1003-6059.202009005

摘要

基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.再根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行bagging集成分类.实验表明,文中方法在大多数数据集上性能表现较优.