摘要

分析任务流的调度是人们关注的热点问题之一。在无法提前得知各子任务资源和时间开销以及算子间传输开销的情况下,现有研究缺少较好的调度方法,也无法很好地处理多平台环境下的任务调度。为此,本文提出了一种基于启发式规则优化的拓扑调度算法。该算法通过对同平台任务和后继任务优先选择的规则,对任务流调度顺序进行优化;其次,结合Spark平台下数据分析任务常见的SQL算子和机器学习算子的代价模型,有效对任务的开销做出估计。实验表明,调度优化算法能有效节约时间开销和内存开销,代价模型的估计也较为准确。

全文