摘要

不平衡数据在分类时往往会偏向"多数",传统过采样生成的样本不能较好的表达原始数据集分布特征.改进的变分自编码器结合数据预处理方法,通过少数类样本训练,使用变分自编码器的生成器生成样本,用于以均衡训练数据集,从而解决传统采样导致的不平衡数据引起分类过拟合问题.我们在UCI四个常用的数据集上进行了实验,结果表明该算法在保证准确率的同时提高了Fmeasure和Gmean.

全文