摘要
21世纪是大数据时代。随着互联网的发展与普及,人们在互联网上会留下大量的"个人信息足迹"。网络数据量呈指数级增长,与此同时人们获取想要的信息的难度也大幅度提高。搜索引擎的出现和发展提高了用户检索信息的效率。网络爬虫是搜索引擎相关技术的重要组成部分,爬虫技术的发展助推信息资源获取更加高效便捷。基于Python技术对目标网站——豆瓣网用户读书喜好信息(包括用户想读、在读、读过、评论等)进行采集与存储,为后期的个性化推荐方法研究提供数据支持。在数据采集过程中涉及URL去重、模拟登录、翻页等技术处理。
-
单位大连外国语大学