摘要

在机器学习领域,超参数是影响模型性能的关键因素之一。已有研究表明,超参数优化能够显著提升版本内缺陷预测和跨项目缺陷预测的性能,而对跨版本缺陷预测性能的影响尚不明确。本文针对超参数优化对跨版本缺陷预测的影响进行探究,以模型在前序版本(训练集)十折交叉验证最优AUC值为优化目标,选取五种经典缺陷预测模型(决策树、K-近邻、随机森林、支持向量机和多层感知机)以及四种常用超参数优化算法(基于TPE和基于概率随机森林的贝叶斯优化算法、随机搜索算法和模拟退火算法),在PROMISE数据集上展开实证研究。研究结果表明:(1)决策树、K-近邻和多层感知机模型超参数优化后,跨版本缺陷预测AUC值得到显著提升;(2)超参数优化后的模型仍保持与默认超参数设置下的模型相当的稳定性;(3)除了较为复杂的多层感知机模型,其余模型超参数优化的时间平均为1-2分钟,超参数优化的时间成本是在可接受范围之内的。上述结果表明,在跨版本缺陷预测中应考虑对模型进行超参数优化以提升预测性能。