摘要
在分布式并行数据流处理中,面向实时变化且具有突发性的流数据负载,固定的资源分配将造成资源浪费或服务质量降低,因此,可伸缩的弹性资源分配是一个亟待解决的关键问题.然而,由于资源分配延迟和负载预测模型存在误差,已有的弹性资源分配策略无法准确地提供与突发负载相匹配的资源,且存在不必要的资源调整反复,增加了系统开销.该文主要解决弹性资源分配的调整延迟和调整颠簸问题.针对上述问题,主要的挑战在于突发负载的准确预测和节点间的协作.为此,该文提出了一个上、下游节点协同的弹性资源分配策略,最优化数据质量和资源使用率,兼顾考虑调整代价.在该策略中,基于数据负载关联模型和双向的控制机制,下游节点能够实时感知和预测上游节点产生的突发负载和负载的变化趋势,预先调整资源并避免调整颠簸;同时,上游节点能够基于反馈机制,动态调节数据处理速率以抑制下游节点的负载波动,降低其资源调整的可能性.实验结果表明,当负载变化较大时,该策略平均减少数据丢失达85%,并显著降低了系统资源调整开销,同时,提高了资源使用率.
- 单位