摘要
Spark是一种基于内存的分布式计算模型,相较于Hadoop的MapReduce模型有非常大的性能提升,因此Spark模型广泛应用于大数据处理工作中。基于其应用的广泛性,如何提升Spark的性能,成为一个焦点问题。现阶段,最为常用的一类优化方式就是通过机器学习构建配置参数-性能模型,再通过智能算法求解性能模型获得最优配置解的方式。但是Spark在工作过程中受到多方面的影响,易造成样本的观察结果产生波动。这种波动会对模型的性能产生负面影响。对此,提出一种基于近邻回归的方法构建Spark性能模型,通过近邻的注意力机制降低样本观测波动的影响,提升模型质量,从而更好地提升Spark的性能。
- 单位