摘要

传统的无监督关键词抽取算法往往无法反应词汇语义信息,而通过词频等方式来衡量一个词的重要性使其在面对短文本时准确率较低.为能兼顾词间语义关系、词位置关系及词频,结合word2vec提出了一种词间的文本局部相似度公式,并通过词间关系建立了不确定图模型,在提出顶点密度概念及候选关键词评价指标DEN的基础上,提出了基于不确定图的候选关键词抽取算法,并结合IDF提出了关键词评价的优化标准DEN-IDF.这种关键词抽取的新方法不依赖于外部人工标注数据,能够实现全程无监督.通过大量文本实验仿真发现,DEN-IDF的准确率比TF-IDF提高了8%左右,比TextRank提高了12%左右.