摘要
为进一步提升关键词提取准确率,提出基于多算法多特征融合的中文文本关键词提取方法。对现有的TF-IDF算法和TextRank算法进行融合,同时融合词频、词长、词语位置、词性这四种影响因素进行加权。通过试验获取权重公式的相对最优权重系数,对改进后两种算法分别提取出权重值由高到低的前K个候选关键词,最终采取投票法筛选出结果。从准确率P、召回率R、准确率和召回率的加权调和平均值F值三个指标对文中融合改进算法(Fusion-T算法)、经典的TF-IDF算法和TextRank算法进行对比。试验结果表明:算法改进后,P、R、F值分别提高了:6.18%、4.97%、5.99%。
- 单位