一种主题自适应聚焦爬虫方法

林椹尠; 袁柱; 李小平

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

一种主题自适应聚焦爬虫方法

作者：林椹尠; 袁柱; 李小平

来源：计算机应用与软件, 2019, 36(05): 316-321.

摘要

针对聚焦爬虫主题描述精确度和主题相似度计算准确度偏低造成的主题覆盖率不足和爬取准确度偏低的问题,提出一种主题自适应聚焦爬虫方法。对每次迭代爬取的主题相关文档集建立LDA模型,提取模型热点词,更新主题关键词集及其权重。引入基于Word2vec的主题相似度计算模型,结合文档内容以及锚文本内容词项的语义相似度和TF-IDF值计算链接优先级,引导爬虫抓取主题相关的网页。与基于语义检索的聚焦爬虫和基于向量空间的聚焦爬虫相比,主题自适应聚焦爬虫在主题覆盖率和爬取准确度方面性能更优。

单位
西安邮电大学; 通信与信息工程学院

收藏分享被引浏览

更新时间：2024-04-11 16:54

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号