摘要

分析了 Cloudera 公司推出的 Impala 实时查询引擎原理与架构,并深入比较 Impala 与传统 MapReduce 的性能与特点,针对 Impala 进行复杂大数据处理方面的不足,提出了 MapReduce 与 Impala 结合的大数据处理方法,通过使用 MapReduce 对 Impala 的输入数据进行预处理,利用 MapReduce 在复杂作业处理方面的长处弥补了Impala 在这方面的不足。最后对电信手机上网日志进行大数据查询和分析计算实验,实验结果表明,在大数据查询性能方面,基于 MapReduce 与 Impala 结合的大数据处理速度比传统 MapReduce 快了一倍。特别地,在迭代查询实验中,基于 MapReduce 与 Impala 结合的处理方法超过传统 MapReduce 方法八倍以上。基于 MapReduce与 Impala 结合的处理方法在单次查询中的效率仍然高于传统 MapReduce;而在迭代查询中,MapReduce 与 Impala结合的处理方法远远地超过了 MapReduce。因此,MapReduce 与 Impala 结合的处理方法能够发挥 Impala 和 Ha-doop 各自的优点,让处理效率远超传统 MapReduce,对于复杂的大数据处理的能力高于 Impala。

全文