摘要
流计算引擎如Storm被广泛地应用于大数据实时处理中,以提高数据处理的执行效率,但该引擎因统计信息粒度粗、无法准确定位性能瓶颈,造成了难以提高数据处理的执行效率问题。为此,本文提出了一种细粒度流计算执行效率优化方法,该方法以元组为中心进行细粒度的性能分析,包含性能瓶颈识别算法和性能瓶颈缓解算法,支持量化地选择最优参数配置以提高执行效率。实验结果表明,在3个标准程序32个不同配置场景下,该方法能够准确地识别流应用的性能瓶颈,识别率为100%,应用的执行效率提高了70%。
-
单位公安部第一研究所; 中国科学院计算技术研究所; 中国科学院大学