摘要

OpenLooKeng是开源的、基于异构数据源上的高性能数据虚拟化引擎,提供了统一的使用接口,但是其系统配置参数多导致使用难度较大,且不合理的配置将影响SQL执行性能,研究openLooKeng参数对性能的影响并进一步对参数进行自动优化具有重要意义。基于此,首先分析了影响SQL执行的关键参数,建立了性能模型,并进一步探索了参数自动优化的方法和策略;其次通过搜索openLooKeng执行过程中对性能有影响的参数,对6种回归模型进行了训练和测试,获得了拟合程度比较好的2种回归模型,并针对openLooKeng任务在特定数据源和集群资源上建立性能模型;最后依据建立的性能模型在参数空间中利用改进的多起点爬山搜索算法寻找最优的参数组合。实验证明经参数优化后openLooKeng性能有较大提升。