摘要

软件缺陷预测数据集在搜集过程中存在标注成本较高的问题,引入主动学习有利于选择有价值的数据样例来快速构建数据集,但是主动学习一般选出不确定度最高的样例进行人工标注,并未考虑低不确定度样例。为了进一步降低数据标注的成本,融合信息熵与相对熵提出一种基于代价敏感的混合式主动学习策略。该策略首先使用基于信息熵的主动学习策略,将信息熵最高的样例交由领域专家进行人工标注;对于信息熵最低的样例,借助查询委员会进行二次分析,若满足阈值则进行伪标注。实证研究表明,在同等标注样例的情形下,该策略的AUC值要优于其他3种经典的主动学习策略。使用基于代价敏感的主动学习查询策略可以有效提高软件缺陷预测领域的标注效率并降低标注成本。