摘要
随着信息技术的快速发展,大数据正以成倍的形势增长。数据也越来越呈现出数量巨大、结构复杂、类型众多、富有价值等特点。然而挖掘出数据中的价值才是关键,面对海量的数据,单靠传统的计算方式已经不能满足数据处理的需要。并行计算的优越性已经得到了的认可,MapReduce已经得到了广泛的应用。阐述MapReduce的原理基础,应用MapReduce计算模型的特性,将分布式文件系统中的大规模数据集切分成独立的数据块将计算均匀的分布到多台异构计算机上,来分析log日志,是一个很好的处理方案。大型网站的服务器往往会产生海量的log日志进行处理,这些log日志记录的其他机器访问服务器的IP、时间、HTTP协议、状态码等信息。
-
单位防灾科技学院