摘要
现有的大多数过采样算法在采样过程中只考虑少数类样本的分布而忽略多数类样本的分布,且数据集除了存在类间不平衡问题之外,还存在类内不平衡问题。针对这些问题,本文提出一种基于密度峰值聚类和径向基函数的过采样方法。该方法首先利用改进的密度峰值聚类算法自适应地为少数类聚类,获得多个子簇;其次利用聚类过程计算所得的局部密度为各子簇分配权重,并根据权重确定各子簇的过采样量;最后用径向基函数计算少数类样本的相互类势,以相互类势为依据对少数类进行过采样。将算法与不同分类器结合进行实验,用不同指标评价分类效果,实验表明,本文算法的分类效果较优。
- 单位