摘要
随着大数据技术的广泛应用和示范效应,企业越来越重视数据的价值挖掘,尤其是结合企业内外部数据进行客户行为、偏好的分析与识别。而电商数据,对一些企业来讲无疑是宝贵的外部数据资源。但电商数据的获取,会受到电商网站的一些反爬技术限制,使其采集变得越来越困难。针对电商领域的数据采集以及在采集电商网站数据过程遇到的数据大,速度慢,访问校验,IP访问限制等问题,结合实际需求,研究、提出一种基于Nutch的分布式电商数据采集方案。
-
单位中国电信股份有限公司广东分公司; 中国电信股份有限公司广州研究院