摘要
现有的关键词提取方法从文档集或者单文档方面考虑词语的特征,很少考虑词语在单文档和文档集中的综合特征对关键词提取效果产生的影响,因此,本文提出多元特征加权的关键词提取方法。该方法通过Word2vec模型提取出词语在文档集中的语义关系特征与词语在单文档中的重要性特征,通过线性加权的方式计算出词语的综合影响力,用于改进TextRank模型中的概率转移矩阵,最后迭代计算选取排名靠前的词语作为文档的关键词。实验结果表明,从单文档和文档集两方面综合考虑词语的影响力,可以有效地改善关键词的提取效果。
- 单位