摘要
TextRank算法基于图论,考虑文本的整体结构,而关键词与文本主题紧密关联。网络博客作为一种新兴的出版方式,与新闻、专业论文等文本不同,其编辑方式更为随意,没有传统意义上的一般格式。将关键词抽取与TextRank算法结合起来,提出一种适用于博客文本的基于关键词抽取的自动文摘算法。首先通过TextRank算法抽取文本关键词,用BM25算法计算句子相似度。然后,以句子相似度为权重构建带权图,迭代计算获取TextRank评分。将TextRank评分与关键词评分相加得到句子最终得分,选择评分最高的前i个句子,按照句子在原文中的顺序输出得到自动文摘。通过ROUGE工具的测评,设计对比实验证明算法效果良好。
- 单位