摘要

针对互联网技术快速发展,用户对各种网站访问量急剧加大,日志数据急剧增加的现状,采用Hbase数据库,Flume、Kafka分布式发布订阅消息系统和Spark Streaming流计算框架,设计实现基于Spark Sreaming的网站流量实时分析系统,深入探讨了网站流量的分析角度和指标,展示了网站的运营情况,从而引导网站开发、运营人员作出相关决策来改进网站的服务,为网站维护、制定网站营销策略提供有力的依据。