摘要

针对MapReduce计算框架下实现数据表等值连接时不能很好地处理数据倾斜的问题,详细分析了数据倾斜带来的任务负载不均匀问题和解决思路,结合两表之间传统连接算法和广播连接算法思想,提出将倾斜数据和非倾斜数据区别对待的分区连接算法。实验结果表明,提出的算法很好地解决了数据倾斜问题下任务负载均衡问题,有效提高了两表之间等值连接查询效率。

  • 单位
    平顶山学院

全文