摘要

随着互联网快速发展和大数据时代的来临,Web数据量快速增长,如何有效并快速地从互联网上获取到用户自身需要的信息是亟待解决的问题。在深入分析互联网地理信息数据传输方式、组织结构、数据格式等方面特点的基础上,以获取房产数据为例,研究总结出一条较为全面的技术路线,从获取规则设计、互联网信息获取、解析地理信息、数据整合4个方面详细阐述了工作原理。基于网站信息架构分析,利用构建HTTP请求和浏览器自动化两种方法获取互联网信息,开发了互联网房产数据整合工具。该研究对地理国情监测相关分析提供数据支持,也有利于下一步开展时空大数据挖掘分析研究,促进新型基础测绘实践开展。