基于RSS的多线程图文信息同步爬取的控制方法及系统

吕钊; 李琴; 黄小霞; 俞云飞; 梁璐; 蔡颂梅; 陈鹏

摘要

本发明提供一种基于RSS的多线程图文信息同步爬取控制方法,用于对网页中的图片、文字信息进行分类获取,其包括如下步骤：a.通过RSS文档分析程序分析待爬取的目标网页文件；b.获取所述目标网页的URL；c.对所述目标网页数据进行过滤分析,采用广度优先策略获取有用信息的URL；d.将所述有用信息的URL进行存储；e.下载所述步骤d中的每个所述有用信息的URL对应的网页内容；f.针对所述步骤e中的每个网页内容执行所述步骤a。本发明还提供一种基于RSS的多线程图文信息同步爬取控制系统。本发明具有以下优点：(1)适宜的查全率,较高的查准率；(2)功能模块化,可移植性能高；(3)具有针对性；(4)具有实时性；(5)具有可维护性。

单位
华东师范大学

收藏分享被引浏览

更新时间：2019-10-26 01:44

基于RSS的多线程图文信息同步爬取的控制方法及系统

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友