摘要

本发明公开了一种针对海量多词短文本的集成分类方法,包括:1获取多词短文本集合,并对多词短文本进行分词预处理;2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型;3基于词向量表示模型,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示;4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,具有较高的鲁棒性和实用性。