一种基于Spark大数据处理平台的查询方法

作者:张海峰; 魏可欣
来源:南京邮电大学学报(自然科学版), 2021, 41(04): 82-90.
DOI:10.14132/j.cnki.1673-5439.2021.04.011

摘要

Spark SQL在获取Spark核心的计算结果后,需要进行一些格式转化和数据拷贝才能正式输出,将造成内存中相同或近似相同的数据有多个拷贝,浪费了内存资源,也降低了性能,直接影响了用户响应和结果存储容量,并且这种影响会随着输出结果的增大而增大。为此,文中提出了基于Spark大数据处理平台的创新查询方法,以实现查询首结果立即输出,极大缩短客户响应时间。

全文