一种基于负载代价的MapReduce等值连接优化算法

作者:郑钤; 向军*
来源:湖北民族学院学报(自然科学版), 2018, 36(03): 342-347.
DOI:10.13501/j.cnki.42-1569/n.2018.09.020

摘要

MapReduce并行计算模型在大规模分布式数据处理中应用广泛,但该模型不能很好地支持连接操作,特别是面对倾斜数据时,原有的分区算法容易造成处理节点间的负载不均衡。针对这一问题,提出一种基于key代价的负载均衡等值连接算法,对Map端中间结果进行采样,根据采样结果计算每一key值的负载代价,并在此基础上,设计一种动态划分函数,对不同的key值按照负载代价均匀划分到各个计算节点,实现了负载均衡。实验结果表明,在同构集群下,提出的算法在负载均衡方面具有较好的效果.

全文