摘要

现有的软件缺陷预测方法面临数据类别不平衡性、高维数据处理等问题。如何有效解决上述问题已成为目前相关领域的研究热点。针对软件缺陷预测所面临的类别不平衡、预测精度低等问题,本文提出一种基于混合采样与RandomStacking的软件缺陷预测算法DPHSRS。DPHSRS算法首先采用混合采样算法对不平衡数据进行平衡化处理;然后在该平衡数据集上采用RandomStacking算法进行软件缺陷预测。RandomStacking算法是对传统Stacking算法的一种有效改进,它通过融合多个经典的分类算法以及Bagging机制构建多个Stacking分类器,对多个Stacking分类器进行投票,得到一个集成分类器,最后利用该集成分类器对软件缺陷进行预测。通过在NASA MDP数据集上的实验结果表明,DPHSRS算法的性能优于现有的算法,具有更好的缺陷预测性能。