摘要
针对聚焦爬虫主题描述精确度和主题相似度计算准确度偏低造成的主题覆盖率不足和爬取准确度偏低的问题,提出一种主题自适应聚焦爬虫方法。对每次迭代爬取的主题相关文档集建立LDA模型,提取模型热点词,更新主题关键词集及其权重。引入基于Word2vec的主题相似度计算模型,结合文档内容以及锚文本内容词项的语义相似度和TF-IDF值计算链接优先级,引导爬虫抓取主题相关的网页。与基于语义检索的聚焦爬虫和基于向量空间的聚焦爬虫相比,主题自适应聚焦爬虫在主题覆盖率和爬取准确度方面性能更优。
-
单位西安邮电大学; 通信与信息工程学院