Spark框架中RDD缓存替换策略优化

陈天宇; 张龙信<sup>*</sup>; 李肯立; 周立前

doi:10.3969/j.issn.1000-1220.2019.06.020

摘要

Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使用RDD分片而忽略其它因素.基于RDD权重值改进后的WR缓存替换策略侧重于RDD的权值替换,在此研究基础上,本文提出了缓存权重替换(CWS)策略,优化选择策略,并在替换阶段考虑了历史访问次数与计算成本.本文的实验使用斯坦福大学提供的公开网络分析项目进行测试,实验结果表明CWS策略在充足内存条件下处理较小数据的平均执行时间高于WR算法2. 4%,内存占用率相比降低36%.

单位
湖南大学; 湖南工业大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-10 21:38

Spark框架中RDD缓存替换策略优化

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友