基于先验知识TextRank的学术文本关键词抽取

作者:方俊伟; 崔浩冉; 贺国秀; 陆伟
来源:情报科学, 2019, 37(03): 75-80.
DOI:10.13833/j.issn.1007-7634.2019.03.013

摘要

【目的/意义】学术文本关键词抽取是从文本中自动抽取具有主题性、代表性的词或短语,是学术信息服务的重要环节。传统的方法大多仅依靠候选关键词有限的词频、文档频率等统计信息,没有考虑学术文本内候选关键词在对应学术领域的使用情况,使得关键词抽取的准确率受到限制。针对这一问题,本文提出一种基于先验知识TextRank的学术文本关键词抽取算法。【方法/过程】首先计算候选关键词的使用情况作为先验概率特征值,然后运用基于图排序的关键词抽取算法TextRank计算候选关键词的文本内特征值,最后结合以上两个特征计算得到候选关键词的综合权值并对关键词进行排序。【结果/结论】在计算机科学领域的多个文献集上进行了实验评估,其结果相较于传统的关键词抽取方法有了明显的提高,证明了基于先验知识TextRank的学术文本关键词抽取算法的有效性。

全文