摘要

针对增加集成学习Bagging算法中分类器的差异性,提高集成学习算法模型的鲁棒性,研究了基于k-means聚类技术对集成学习算法Bagging进行剪枝。在基础Bagging算法中融合对Bagging分类器的聚类,然后在不同簇中选择具有代表价值的分类器为最终集成学习预测结果投票,并在多个机器学习数据集上验证这种提高差异性的方法与基本Bagging性能的差异。经过仿真实验最终得出在算法迭代10次的前提下,改进的Bagging算法较常规Bagging算法在10个实验数据集中提高了7个数据集的预测精度,其精度提高的平均值在3%;在算法迭代100次的前提下,改进的Bagging算法较常规Bagging算法在10个实验数据集中提高了9个数据集的预测精度,其精度提高的平均值为2.5%。为复杂数据库环境下Bagging算法的应用提供了新思路。

  • 单位
    武汉第二船舶设计研究所