摘要
本发明提供一种基于RSS的多线程图文信息同步爬取控制方法,用于对网页中的图片、文字信息进行分类获取,其包括如下步骤:a.通过RSS文档分析程序分析待爬取的目标网页文件;b.获取所述目标网页的URL;c.对所述目标网页数据进行过滤分析,采用广度优先策略获取有用信息的URL;d.将所述有用信息的URL进行存储;e.下载所述步骤d中的每个所述有用信息的URL对应的网页内容;f.针对所述步骤e中的每个网页内容执行所述步骤a。本发明还提供一种基于RSS的多线程图文信息同步爬取控制系统。本发明具有以下优点:(1)适宜的查全率,较高的查准率;(2)功能模块化,可移植性能高;(3)具有针对性;(4)具有实时性;(5)具有可维护性。
- 单位