基于KNN和深度高斯混合模型的边界过采样方法

张海宾; 肖涵; 易灿灿; 袁锐

摘要

[目的]针对数据不平衡导致的分类器偏向问题，提出一种基于KNN和深度高斯混合模型（Deep Gaussian Mixture Model，DGMM）的边界过采样方法。[方法] 首先采用K-最近邻算法（K-Nearest Neighbor，KNN）获得训练集中的边界少数类样本；其次构建该区域少数类样本的DGMMs，并反向应用DGMM生成符合训练集中边界少数类样本分布特征的过采样数据；最后采用3σ准则剔除噪声样本，循环执行直到生成的样本不存在异常值。[结果]所提方法获得的AUC和G均值的最大提升幅度分别为5.64%和7.95%，对应的平均提升幅度分别为2.75%和3.78%。[局限]DGMM的参数优化方法需进一步完善。[结论]所提方法可以更好地处理数据不平衡问题。

单位
武汉科技大学

收藏分享被引(11) 浏览

更新时间：2024-02-02 16:17

基于KNN和深度高斯混合模型的边界过采样方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友