摘要

集成剪枝是提高分类器集成性能的一种关键性技术,其通过选择较小规模的基分类器,获得更优的集成性能.目前集成剪枝方法通常单独采用基分类器间的差异性测度或元启发式算法,进行集成剪枝.基分类器的平均精度和差异性被广泛认为是集成剪枝的两个重要指标,但增大基分类器间差异性势必会减小其平均分类精度,提高基分类器的平均精度亦会降低其差异性.故在基分类器的平均精度和差异性之间存在一个平衡状态,使得集成性能最优,找到该平衡状态才是集成剪枝成功的关键.集成剪枝是一个NP完全问题,采用差异性测度仅能剔除集成系统中部分冗余的基分类器,难以准确地找到该平衡状态;元启发式算法在搜索该平衡状态上,具有良好的性能,但若单独采用元启发式算法,则很难穷尽搜索到该平衡状态.故该文提出了融合改进二元萤火虫算法和边界最小化测度的集成剪枝方法.首先,采用Bootstrap方法重复抽取训练集,获得多个训练子集,使用分类器分别进行独立训练,获得多个基分类器;其次,运用边界最小化测度对所获得的基分类器进行预剪枝,剔除综合性能较差的基分类器,显著降低集成剪枝问题的复杂度;接着,通过改进萤火虫的移动方式和搜索过程,并引入竞争行为和跳跃行为,提出了改进二元萤火虫算法;最后,利用改进二元萤火虫算法对预剪枝后的基分类器,进行二次剪枝,选择出性能最优的子集成.在35个UCI标准数据集上进行测试,实验结果表明:相较于其他方法,该文所选择的基分类器规模较小,集成分类精度更高,并验证了其有效性和显著性.