基于Python的豆瓣读书网站用户信息采集

李鑫欣; 关菁华

doi:10.14004/j.cnki.ckt.2019.0712

摘要

21世纪是大数据时代。随着互联网的发展与普及,人们在互联网上会留下大量的"个人信息足迹"。网络数据量呈指数级增长,与此同时人们获取想要的信息的难度也大幅度提高。搜索引擎的出现和发展提高了用户检索信息的效率。网络爬虫是搜索引擎相关技术的重要组成部分,爬虫技术的发展助推信息资源获取更加高效便捷。基于Python技术对目标网站——豆瓣网用户读书喜好信息(包括用户想读、在读、读过、评论等)进行采集与存储,为后期的个性化推荐方法研究提供数据支持。在数据采集过程中涉及URL去重、模拟登录、翻页等技术处理。

单位
大连外国语大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-09 21:47

基于Python的豆瓣读书网站用户信息采集

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友