Nutch中网页更新预测研究与优化

胡伟; 吴海涛

摘要

Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.

单位
上海师范大学; 机电工程学院

收藏分享被引浏览

更新时间：2023-06-28 19:14

Nutch中网页更新预测研究与优化

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友