摘要
软件缺陷预测是典型的非平衡学习问题。基于CS-SVM和聚类算法改进代价敏感支持向量机(SVM)算法,提出了CCS-SVM软件缺陷预测模型。在CCS-SVM预测模型中,将SVM与类别误分代价结合起来,以非平衡数据评价指标作为目标函数,优化错分代价因子,提升少数类样本的识别率。通过聚类找到每类样本的中心点,根据样本到其中心点的距离定义每个样本的类别置信度,给每个样本分配不同的误分代价系数,并把样本的置信度引入到代价敏感SVM优化问题中,提高算法鲁棒性,提升SVM分类性能。此外,为了提高模型的泛化能力,使用遗传算法优化特征选择和模型参数。通过美国航空航天局NASA MDP数据集实验表明,本文方法的G-mean和F-measure模型评价值有明显的提升。
- 单位