摘要

该文基于Scrapy框架研究并实现了爬取温州租房信息的爬虫程序,程序采用分布式结构,运用去重算法去除重复URL提高爬虫的效率,并针对反爬虫策略提出多种解决方法。爬取的信息存储在MongoDB数据库中,最终通过测试和分析得出位置、朝向对温州租房价格的影响,得出租房性价比较高的方案。

  • 单位
    温州商学院