摘要

<正>聚焦爬虫技术聚焦网络爬虫也就是主题网络爬虫,它增加了链接评价和内容评价模块,其爬行策略实现要点就是评价页面内容以及链接的重要性。基于链接评价的爬行策略,主要是以Web页面作为半结构化文档,其中拥有很多结构信息可用于评价链接重要性。还有一个是利用Web结构来评价链接价值的方法,也就是HITS法,通过计算每个访问页面的Authority权重和Hub权重来决定链接访问顺序。