摘要
Spark SQL是Spark技术的一个模块,在不使用Scala语言的前提下,可以对结构化数据进行处理和优化。本文重点研究Spark SQL的架构、DateFrame数据抽象、基于数据分类的改进交替最小二乘算法(ALS)等几个方面,研究在推荐系统中处理结构化数据面临的性能优化问题研究。提出最小二乘算法对Spark SQL的Dateset进行优化,在操作Hive数据集和HBase分布式数据的过程中,整合二者的优点,改进了数据读写速度,优化了数据组织框架。在推荐系统进行结构化文件处理的问题上,具有一定的指导意义。
-
单位福建船政交通职业学院