摘要
为了解决软件缺陷预测中的类不平衡问题,该文提出了一种新颖的基于生成式对抗网络(Generative adversarial networks, GAN)的过采样方法。GAN网络能够充分利用样本分布的空间关系,挖掘出样本之间隐藏的一些关联信息,通过生成器和判别器交替优化的方式使得生成的新样本更加合理科学。在26个不平衡的数据集上进行了试验,并与一些过采样方法以及未采样的方法在8个分类器上进行了广泛比较。试验结果表明,该文方法在Precision、Recall、F-measure和G-mean上都取得了最好的效果。
- 单位