基于ImpaIa的大数据查询分析计算性能研究

郭超; 刘波; 林伟伟

doi:10.3969/j.issn.1001-3695.2015.05.013

摘要

分析了 Cloudera 公司推出的 Impala 实时查询引擎原理与架构，并深入比较 Impala 与传统 MapReduce 的性能与特点，针对 Impala 进行复杂大数据处理方面的不足，提出了 MapReduce 与 Impala 结合的大数据处理方法，通过使用 MapReduce 对 Impala 的输入数据进行预处理，利用 MapReduce 在复杂作业处理方面的长处弥补了Impala 在这方面的不足。最后对电信手机上网日志进行大数据查询和分析计算实验，实验结果表明，在大数据查询性能方面，基于 MapReduce 与 Impala 结合的大数据处理速度比传统 MapReduce 快了一倍。特别地，在迭代查询实验中，基于 MapReduce 与 Impala 结合的处理方法超过传统 MapReduce 方法八倍以上。基于 MapReduce与 Impala 结合的处理方法在单次查询中的效率仍然高于传统 MapReduce；而在迭代查询中，MapReduce 与 Impala结合的处理方法远远地超过了 MapReduce。因此，MapReduce 与 Impala 结合的处理方法能够发挥 Impala 和 Ha-doop 各自的优点，让处理效率远超传统 MapReduce，对于复杂的大数据处理的能力高于 Impala。

单位
华南师范大学; 华南理工大学

全文

访问全文

收藏分享被引浏览

更新时间：2023-07-26 13:31

基于ImpaIa的大数据查询分析计算性能研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友