摘要

本发明公开了一种基于文本哈希向量化表示的海量极短文本分类方法,其步骤包括:1数据集向量化的前期分词预处理;2模型设计和实现;3应用Signed Hash Trick算法映射得到的包含文本词频特征的稀疏矩阵;4特征提取完后,用随机森林分类模型在训练集上训练分类器;5用训练集上的分类器在测试集上做分类预测;6完成在测试集上的分类,得到最终文本分类的准确度。本发明解决现有极短文本分类中存在的分类精度低、分类时间过长的问题,从而能提高极短文本的分类效果,并降低硬件的内存消耗,具有较高的鲁棒性和实用性。