摘要

关键词提取技术是目前计算机文本分类等技术采用的基本技术。笔者根据传统TFIEF算法的特点,研究出创新型的关键词提取算法,算法的基础是以词语权重来计算的,并在文本候选关键词中把词频比设计成去噪音的权值以及引入词语相似度,该方法对降低文本同类语料库提取关键词权重的影响都是非常有效的,也消除了TFIDF算法存在偏差。经过实验的分析和对比,该新型方法拥有更高的平均召回率。