摘要

随着对传统数据库数据资料使用的日益饱和,为探索特定情境下的研究问题,科研人员开始迫切寻找更加灵活且多样的数据来源,丰富的Web资源为这一需求提供了快捷通道。为此,针对传统数据采集技术如Python的高编程门槛和高内存消耗等缺点,引入基于C#的Octoparse数据采集技术,分析了该技术在数据采集应用中的原理、优势和不足,并以IPE公众环境研究中心为实验平台,设计了一套具备高复制性、高拓展性的数据采集规则,对2004~2017年间京津冀、长三角、珠三角地区总计758家废水国控重点监控企业的环保处罚记录进行了定向采集。实验表明,相比Python, Octoparse数据采集技术的规则设定更加便捷,批量采集更加稳定,数据导出更加多样,不仅可以有效降低编程门槛,而且能够规避由盲视操作导致的数据丢失,实现所见即所得。该套规则可以为地方环境政策的评估以及区域环境经济的预测提供优质的数据支撑。