摘要
在Hadoop MapReduce环境中,如果能预知作业的执行时间,就可在资源分配、任务调度以及负载均衡过程中作出更合理的决策,改善系统性能.在分析Hadoop MapReduce作业执行模式后,提出了一种作业执行时间在线预测方法.该方法在结合历史信息的基础上,可根据作业在不同阶段的执行进度在线预测执行时间.该方法已在Hadoop-0.20.2中实现,并在一个包含19个节点的Linux集群中进行了验证.实验结果表明,在最好情况下,根据该方法预测的执行时间和真实执行时间的误差约2%.
- 单位