摘要
针对不确定数据流蕴含的概念存在往复出现的特点,对带有概念漂移的不确定数据流分布式分类算法进行了研究,利用适于大数据处理的分布式极限学习机算法,提出了一种基于分布式极限学习机的概念缓冲加权集成算法。在训练阶段,该算法在不确定数据流块上训练带有权重的基分类器,然后基分类器进行投票,再将结果进行权值分配后加到全局分类结果。在分类器更新和剪枝阶段,该算法设置了缓冲区用来保存旧的分类器已经出现的旧概念,然后提出一种方法更新缓冲区管理的概念。该算法有效避免了当前分类算法仅存储当前概念,新概念发生时模型每次都需要重新学习的缺点,更适用于有概念往复现象的不确定数据流的分类问题。实验结果证明了该算法的有效性和高效性。
-
单位山西工程技术学院; 东北大学