基于动态获取高频率键的MapReduce性能优化算法

李建江; 滑水亮; 吴杰; 张凯<sup>*</sup>

doi:10.16511/j.cnki.qhdxxb.2018.21.022

摘要

在云计算技术领域中,MapReduce能够帮助人们快速处理海量数据,因此在学术界以及工业界越来越受到重视。但是MapReduce在处理以文本为中心的应用时,中间结果中数据重复较多。针对该情况,已有的高频率缓冲(frequency buffering,FB)算法提出在环形内存缓冲之前添加哈希表,并将高频率键存储在哈希表中。该算法通过采样来实现,有额外开销并且统计出的高频率键并不一定准确。该文提出一种基于动态获取高频率键的MapReduce性能优化算法,通过在环形内存缓冲之前增加计数Bloom过滤器(counting Bloom filter,CBF)和哈希表,将高频率键动态地存储在哈希表中。该算法获得的高频率键更准确,同时大大减少了数据排序和磁盘I/O的开销。实际测试结果表明:该算法明显提高了作业的执行速度,比原始MapReduce提高17.04%,比FB算法提高9.31%。

单位
北京科技大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-24 23:43

基于动态获取高频率键的MapReduce性能优化算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友