摘要
本发明公开一种基于在线序列核极限学习机的多标签文本数据流分类方法,包括:1.根据外部语料库构建BoW模型和滑动窗口机制将多标签文本数据流划分为数据块后向量化;2.利用k-1时刻的集成分类器模型对k时刻的文本数据块D-k进行预测,输出预测结果;3.对文本数据块D-k的文本特征集合进行特征选择,得到降维后的文本特征集合M-k;4.根据k时刻文本数据块D-k和k-1时刻文本数据块D-(k-1)的类标签空间之间的余弦相似度和降维后的特征集合之间的分布差异,判断是否发生概念漂移或特征漂移;5.根据漂移检测情况,利用文本数据块D-k中的所有文本构建在线序列核极限学习机,并更新至k时刻的集成分类器模型。本发明解决了带有特征漂移和概念漂移的多标签文本数据流分类问题。
- 单位