摘要

本发明公开了一种基于word2vec模型的分布式短文本数据流快速增量分类方法,其步骤包括:1从知识库中获取外部语料库构建woord2vec模型,并获取词向量集合Vec;2构建动态线性LR分类器组与全局类标签集合;3增量式更新全局标签集合,修改并增加分类器组;4预测样本,获取未在词集合Vocab中的新词样本集合,构建词向量模型与词向量扩展集合;5获取测试数据流的类标签强度。本发明能够提高短文本数据流的分类准确率,减少模型构建的时间消耗,从而达到快速适应短文本数据流分类的目的。