摘要

针对word2vec无法体现词性和词项的权重信息问题,研究了一种词向量模型加权计算文本相似度的方法。首先选取搜狗综合语料库进行词向量训练,再通过设定的相似度阈值,对文本关键词进行分割,最后利用KNN分类算法对测试文本集分类的准确率进行测试。结果表明了所设计的基于加权的word2vec算法的准确率较高。