摘要

在软件缺陷预测中,类不平衡问题给经典的机器学习算法带来了巨大挑战。现有研究表明,相较于类不平衡问题,数据困难因子的存在对预测性能影响更为明显。然而,大多数现有软件缺陷预测过采样方法在解决类不平衡问题过程中,忽视了软件项目数据集固有的数据困难因子,从而导致预测性能不佳。针对上述问题,提出一种基于前景理论的过采样算法POS。POS同时考虑局部邻域中同类和异类样本的影响来评估少数类样本的学习难度,通过基于引力的策略构建同类收益和异类损失来刻画样本的前景值,并强调异类损失来计算少数类样本的采样权重,以此降低引入数据困难因子的风险,提高合成样本的质量,进一步提升预测性能。在NASA数据集上的实验结果表明,POS算法在AUC、balance和G-mean等性能指标上均有所提升,具有更好的缺陷预测性能。