HADOOP平台与MAP-REDUCE编程模型

作者:陈文廉
来源:信息记录材料, 2019, 20(12): 86-88.
DOI:10.16009/j.cnki.cn13-1295/tq.2019.12.052

摘要

大数据处理是近年来个人、公司、企业以及世界范围内的大型公司特别关注的问题之一。通常,Google已索引了100亿张图片,YouTube每分钟处理35小时的内容,Twitter每天处理6亿的计算机访问…以下就是我要讨论关于大数据的内容。曾经有一段时间,如此大规模的数据仅用于能够购买昂贵的超级计算机并雇用员工进行维护的大型公司。如今,由于降低存储数据成本和数据处理的能力变得司空见惯,一些较小的公司和个人已经开始类似于数据存储一样存储和挖掘数据。多个硬盘上的分布式数据存储有存储容量大和数据访问速度快的优势。但是,维护具有多个硬盘的分布式系统出现了许多需要解决的问题,例如硬件故障和要存储在其他硬件上的数据分析问题。由此,形成的大数据挖掘革命的技术之一是Hadoop平台上的MapReduce编程模型。因此,在本文的框架内,作者将介绍编程模型并提供有关它的说明性应用程序。