摘要

为缓解目前的大数据流式计算引擎在处理密集窗口时因高负载而带来的性能下降问题,文章分析了原生窗口机制的性能瓶颈以及现有优化方法的不足之处,包括需要额外的内存空间用于存储输入的数据流、无法自动清理状态缓存等,提出一种基于关键窗口机制的优化方案,该方案能够减少流式计算中需要创建的窗口数量,具有降低系统负载的效果。通过与原生机制进行对比分析,证明此优化方案的有效性。该优化方案具有能兼容现有框架、对下游系统改造少及同时提升内存占用和I/O频率两个方面性能的优点。

全文