基于收益模型的Spark SQL数据重用机制

申毅杰; 曾丹; 熊劲<sup>*</sup>

摘要

通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I/O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%～68%.

单位
中国科学院大学; 中国科学院计算技术研究所; 计算机体系结构国家重点实验室

收藏分享被引(6) 浏览

更新时间：2024-04-12 11:21

基于收益模型的Spark SQL数据重用机制

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友