摘要

软件缺陷预测数据集作为预测模型构建及实施缺陷预测的基础设施,面临着两方面问题,一方面因数据源头上采集困难导致可用评测数据集较少;另一方面,已公开的数据集因领域数据不同导致了差异性大、度量标准不适用等问题,鲜有工程应用。结合国内航天领域的真实软件评测数据,对航天器软件度量指标设计方法与航天器软件缺陷预测数据集的构建过程进行了系统阐述。依据航天器软件的特点,提出了软件的代码度量与质量度量相结合的混合度量方法,确保能够从不同的角度全面刻画、度量航天器软件的相关特性;同时针对面向大规模数据收集、处理、分析等环节耗费高昂人力与存储成本的问题,提出了版本划分下的数据清洗与模块层级预处理相结合的标准化数据集构建方法。通过对基于该方法构建的SPACE数据集进行应用示范,验证了此方法能够有效应用于构建具有领域针对性的高质量软件缺陷预测数据集,并可取得模型AutoWeka良好的预测效果。