基于KNN和深度高斯混合模型的边界过采样方法

作者:张海宾; 肖涵; 易灿灿; 袁锐
来源:数据分析与知识发现, 2023, 7(05): 116-122.
DOI:10.11925/infotech.2096-3467.2022.0609

摘要

【目的】针对数据不平衡导致的分类器偏向问题,提出一种基于K-最近邻(KNN)算法和深度高斯混合模型(DGMM)的边界过采样方法。【方法】首先,采用KNN算法获得训练集中的边界少数类样本;其次,构建该区域少数类样本的DGMM,并反向应用DGMM生成符合训练集中边界少数类样本分布特征的过采样数据;最后,采用3σ准则剔除噪声样本,循环执行直到生成的样本不存在异常值。【结果】所提方法获得的AUC和G均值的最大提升幅度分别为8.62%和12.99%,对应的平均提升幅度分别为3.51%和4.93%。【局限】DGMM的参数优化方法需进一步完善。【结论】所提方法可以更好地处理数据不平衡问题。

全文