摘要
HBase是一个分布式数据库管理系统,对于需要快速随机访问大量数据的应用程序,它正变得越来越流行。但是,它有许多性能关键配置参数,这些参数之间可能会以复杂的方式相互影响,这使得手动调整它们以获得最佳性能变得极其困难。文中提出了一种新的方法来自动调优给定HBase应用程序的配置参数,称为自动调优HBase。其关键是建立一个以配置参数为输入的低成本性能模型。为此,系统地研究了不同的建模技术,并决定采用集成学习算法来构建性能模型。随后,利用遗传算法通过性能模型为应用程序搜索最优配置参数。因此,它可以快速且自动地识别一组配置参数值,以使应用程序的性能达到最佳。实验测试了Yahoo!云服务基准的5个应用程序,结果表明,与默认配置相比,优化后的吞吐量平均提高41%,最高可达97%。与此同时,HBase操作的延迟平均降低了11.3%,最高可达57%。