摘要
本发明公开了一种基于重做日志的分布式商品信息爬虫方法,包括:从数据库中读取配置来生成爬虫任务,定义三种爬虫的重做日志记录格式,执行商品搜索爬虫,在电商网站的搜索结果页中提取商品列表并生成商品信息任务和商品评论任务;把商品信息任务和商品评论任务再分配到各个服务器上,执行商品信息爬虫采集并保存商品的各种属性数据,执行商品评论爬虫采集并保存商品的评论数据;重做日志会记录采集失败的任务和状态;定时从重做日志中取出日志,反序列化为爬虫任务进行重新爬取。本发明的基于重做日志的分布式商品信息爬虫方法,能够针对电商网站的商品数据和评论数据的爬取,有效地提高数据采集的效率和完善性。
- 单位