摘要

[目的]针对数据不平衡导致的分类器偏向问题,提出一种基于KNN和深度高斯混合模型(Deep Gaussian Mixture Model,DGMM)的边界过采样方法。[方法] 首先采用K-最近邻算法(K-Nearest Neighbor,KNN)获得训练集中的边界少数类样本;其次构建该区域少数类样本的DGMMs,并反向应用DGMM生成符合训练集中边界少数类样本分布特征的过采样数据;最后采用3σ准则剔除噪声样本,循环执行直到生成的样本不存在异常值。[结果]所提方法获得的AUC和G均值的最大提升幅度分别为5.64%和7.95%,对应的平均提升幅度分别为2.75%和3.78%。[局限]DGMM的参数优化方法需进一步完善。[结论]所提方法可以更好地处理数据不平衡问题。