摘要
针对Spark平台下文本分类中文本表示方法不够完善,导致分类准确率低的问题,结合Spark ML下的TF-IDF算法和Word2vec模型,提出一种基于Spark ML的加权词向量文本表示方法。首先对文本进行分词,去停用词等预处理,基于Spark ML计算出每个词语的词频和逆文档频率,同时计算词语的词向量。使用词语的TF-IDF值作为词向量的权重,将文本表示为加权词向量,再使用SVM分类器进行分类。在THUNews数据集上进行实验。实验结果表明,该方法相比于传统的TF-IDF算法、平均Word2Vec词向量文本表示,可以提升分类的精度。
- 单位