基于Scrapy的水利数据爬虫设计与实现

作者:游攀利; 杨琳; 喻淼
来源:水利水电快报, 2020, 41(05): 71-77.
DOI:10.15974/j.cnki.slsdkb.2020.05.014

摘要

为解决目前各级水利部门数据共享能力弱、数据格式不统一的问题,建立了一种水利数据整合方法。针对互联网公开的水利数据特点,结合水利行业标准规范,介绍了基于Scrapy框架设计和开发的水利数据爬虫,并规范化存储数据。在总结各种水利数据的获取和解析原理及方法基础上,提出了使用Scrapyd部署爬虫和SpiderKeeper管理爬虫的方法,并成功应用于长江大数据中心的建设,为水雨情预警、防汛抗旱、应急管理提供了重要支持。