摘要
已有工作一般将缺陷报告严重程度预测问题建模为粗粒度分类问题(即二分类问题)或细粒度分类问题(即多分类问题),更细的预测粒度意味着对分类准确性提出更高的要求,因而预测性能通常会下降。通过有效利用粗粒度分类的高预测性能与细粒度分类更为精细的预测粒度,提出一种变粒度缺陷报告严重程度预测(variable granularity bug report severity prediction,VG-BSP)方法,VG-BSP方法首先对缺陷报告进行基于二分类的粗粒度划分,然后根据二分类的结果,选择对应的预测模型以预测出具体的严重程度(即基于多分类的细粒度划分)。为了验证VG-BSP方法的有效性,搜集了来自Eclipse的两个子项目JDT和CDT的缺陷报告和来自Mozilla项目的缺陷报告;并将VG-BSP方法与逻辑回归(logistic regression,LR)方法、K近邻(K-nearest neighbors,KNN)方法、决策树(decision tree,DT)方法、随机森林(random forest,RF)方法、支持向量机(support vector machine,SVM)方法等经典细粒度分类方法进行了对比。实验结果表明:基于macro-F1指标,VG-BSP方法的性能与已有的细粒度方法相比平均可提升19.6%。除此以外,使用LR分类算法和Spacy词向量可以使得VG-BSP方法取得最好的性能。
- 单位