一种基于类与特征分布的多标签数据流中概念漂移检测方法

作者:李培培; 李磊; 张玉红; 胡学钢; 刘俊峰; 何路; 吴共庆; 吴信东
来源:2017-03-14, 中国, ZL201710151295.6.

摘要

本发明公开了一种基于类与特征分布的多标签数据流中概念漂移检测方法,包括:1、根据滑动窗口机制将多标签数据流划分成数据块;2、统计数据块的类标签数据分布,并根据余弦相似度函数与海明损失函数计算类标签分布差异度,用于判断数据块是否发生概念漂移;3、统计数据块的特征数据分布,计算特征向量与类标签向量的相关度、特征向量间的冗余度和类标签向量间的相关度,根据最大相关最小冗余的原则进行特征排序;4、选择前K个特征向量作为数据块的特征分布并计算特征分布差异度,用于判断数据块是否发生概念漂移。本发明可用于发现多标签数据流中基于类和特征分布变化引发的概念漂移,并根据类和特征分布的差异度判断漂移类型。