摘要

【目的】类不平衡和概念漂移是数据流分类任务中的两个主要挑战,而当他们同时发生时,将显著影响数据流分类算法的性能,因此,针对传统数据流分类算法难以应对类别不平衡和概念漂移同时存在的问题,提出一种专注于非平衡数据流的重采样集成模型。【方法】首先,设计一种适用于数据流的边界过采样方法,利用三角形重心的特点,在边界样本内侧合成新样本,使得块中的少数类得到增强的同时,尽可能保持数据原有分布并且避免引入新的概念,有效改善数据块中类别不平衡情况;在此基础上,融合时间衰减策略和加权集成策略,设计基于马修斯相关系数作为权重的动态加权集成模型,解决概念漂移问题,同时增强分类挖掘模型的自适应性和健壮性。【结果】在3个真实数据流和6个模拟数据流上的仿真实验结果表明,所提方法在非平衡数据流场景中,展现出对多数类和少数类均有高效的识别能力,并且对突变和增量概念漂移都具有更好的漂移感知和适应能力,分类模型整体性能优于对比算法。【结论】实验验证,所提方法构建出一种鲁棒的非平衡数据流分类模型,在处理非平衡数据流和适应两种类型的概念漂移方面具有更好的优势。