摘要
文章针对传统SMOTE及BSMOTE过采样方法会导致多数类样本识别率下降的问题,提出基于局部密度的改进BSMOTE算法(LDBSMOTE)。首先,根据样本分布特点计算局部密度值并筛选根样本,最大限度地保证具有潜在价值的样本不会被丢失,然后通过SMOTE合成样本,最后利用集成学习算法进行分类。为了验证LDBSMOTE的有效性对15个公共数据集进行实验,结果表明,相比SMOTE和BSMOTE,LDBSMOTE算法在F1、G-mean及AUC上平均提升了2.25%,且平均得分均为最高,能在保证多数类样本识别率的基础上提升少数类样本的识别率,有效提升分类性能。
- 单位