摘要

针对传统的大数据处理框架Hadoop在执行计算任务时抽象层次低、运行速度慢、无法实时计算等问题,提出了一种基于内存的分布式框架Spark作为计算引擎的方法。结合Hadoop框架中的分布式文件存储技术,设计了一个电商用户行为分析系统。首先根据数据特点建立用户画像,然后对用户访问行为数据进行离线分析,计算网站页面转化率以及统计热门商品,最后对实时的广告数据进行分析。测试结果表明,基于Spark框架的电商用户行为分析系统能够明显提升的运行速度与稳定性,增加数据处理效率。