摘要
随着互联网的发展,网络数据覆盖了各个领域,但随着网络数据量的增加和数据格式的多样化,用户从海量数据中获取有价值的数据变得越来越困难。目前国内外对数据采集技术进行了研究,发现通过网络爬虫技术可以自动获取网络资源。本文以南京市二手房信息为例,设计了一个基于Scrapy框架的爬虫程序,对中西部部分地区的二手房信息进行抓取和存储,最后运用Excel数据分析,对南京市二手房资源按区域、住房类型进行分析。结果表明,该程序能够自动采集安居客户的住房信息,提高了用户获取信息的速度和质量,为用户数据分析提供了数据源。
-
单位金肯职业技术学院