摘要

软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的性能与训练数据质量有着密切关系.针对软件缺陷预测中数据类不平衡问题,该文提出一种结合局部密度和K-Means++聚类的自适应判断过采样方法(local density adaptive oversampling based on K-Means++, LDKMAS).该方法首先利用K-Means++聚类算法为少数类样本聚类,获得多个子簇;其次计算各子簇中样本的局部密度,并合计为子簇密度;最后根据子簇密度自适应确定各子簇的过采样量,插值合成新样本直至数据集平衡.将LDKMAS算法与其他经典的过采样方法进行对比实验,用不同指标评价预测效果.实验表明,该文算法的软件缺陷预测效果更为出色,展现了较之于其他采样方法在软件缺陷预测不平衡数据处理上的优势.