摘要

提出一种基于核字典学习的软件缺陷预测方法,首先根据软件缺陷历史数据结构复杂、类不平衡的特点,利用核方法将软件缺陷历史数据映射到一个能代表原始数据分布的高维特征空间.然后在核空间中,通过学习得到一个核字典,利用这个核字典判定软件模块的属性,对软件模块进行缺陷预测.在核字典学习过程中,为了解决缺陷预测中的类不平衡问题,采用了一种核字典基选择策略,构造出一个类别平衡的核字典.在NASA数据集上的对比实验表明,核字典学习方法取得了较高的Fmeasure值和AUC值,有效地解决了缺陷预测中的类不平衡问题,取得了较好的预测效果.