摘要

传统Page Rank算法单纯从网页链接结构进行分析而未考虑搜索主题漂移、侧重于旧网页以及忽略用户兴趣的问题。为提高搜索引擎检索效率,通过增加主题内容相关度、有效点击频率和时间反馈因子对算法进行改进。使用分布式计算框架Map Reduce实现改进算法并部署运行在Hadoop集群上。对实验数据进行对比分析,发现改进后的Page Rank算法在Nutch上的爬取索引效率提高7.209%,用户在网页检索效率上提高10.12%,查准率提高21.4%,同时,随着集群节点数和数据量的增加,搜索引擎的检索效率逐渐增强。

全文