摘要

基于MapReduce的程序被越来越多地应用于大型数据分析的应用中. Apache Hadoop是最常用的开源MapReduce模型之一.程序运行时间的缩短对于MapReduce程序以及所有数据处理应用而言至关重要,而能够准确估算MapReduce程序的执行时间是优化程序的重要环节.本文定义了一个在Hadoop2.x版本中能够准确估算MapReduce作业负载执行时间的性能模型.该模型包括一个优先级树模型与一个排队网络模型,分别用于展示一个MapReduce作业中不同任务之间的依赖关系及MapReduce作业内的同步约束.最后,实验证明了该模型的可用性.