摘要
为了降低大数据研究的复杂度和成本,推进大数据研究的普及化和民用化,设计和搭建了一种简洁便利基于Hadoop网站流量日志分析系统。系统基于Hadoop集群搭建,由Flume模块和MapReduce模块分别进行日志数据地采集和预处理,并由Hive模块进行数据分析,在Web页面实现数据可视化。在数据分析部分,结合PageRank算法对流量日志进行分析。仿真实验结果表明,系统可以完成流量日志分析,具有良好的性能。
- 单位
为了降低大数据研究的复杂度和成本,推进大数据研究的普及化和民用化,设计和搭建了一种简洁便利基于Hadoop网站流量日志分析系统。系统基于Hadoop集群搭建,由Flume模块和MapReduce模块分别进行日志数据地采集和预处理,并由Hive模块进行数据分析,在Web页面实现数据可视化。在数据分析部分,结合PageRank算法对流量日志进行分析。仿真实验结果表明,系统可以完成流量日志分析,具有良好的性能。