摘要

针对科技文本关键词抽取任务中对出现次数少但能较好表达文本主旨的词语抽取效果差的问题,提出一种基于改进TextRank的关键词抽取方法。首先,利用词语的词频-逆文档频率(TF-IDF)统计特征和位置特征优化共现图中词语间的概率转移矩阵,通过迭代计算得到词语的初始得分;然后,利用K-Core(K-Core decomposition)算法挖掘K-Core子图得到词语的层级特征,利用平均信息熵特征衡量词语的主题表征能力;最后,在词语初始得分的基础上融合层级特征及平均信息熵特征,从而确定关键词。实验结果表明:在公开数据集中,与TextRank方法及OTextRank(Optimized TextRank)方法相比,本文所提出的方法在抽取不同关键词数量的实验中,F1均值分别提高了6.0、3.1个百分点;在科技服务项目数据集中,与TextRank方法及OTextRank方法相比,本文所提出的方法在抽取不同关键词数量的实验中,F1均值分别提高了6.5、3.4个百分点。实验验证了本文方法对出现频率低但较好表达文本主旨关键词抽取的有效性。