摘要
以Apache Storm为代表的分布式流式数据处理系统能够在复杂大数据处理环境中提供低延迟的处理,因此受到了学术界和工业界的普遍关注。在分布式流式数据处理系统中,任务调度是决定系统性能的关键因素。一个优秀的任务调度器能够为系统带来更高的吞吐量、更低的处理延迟和更好的资源利用率。Storm原生的任务调度器需要用户手动设置并行度,并且使用简单的轮询方法进行任务分配,在实际应用中性能较差。针对这一问题,研究者提出了多种面向Storm任务调度机制的优化策略。文中综述了Storm任务调度机制的相关工作,首先介绍了Storm系统以及原生的任务调度机制,并梳理了目前提出的面向Storm任务调度机制的优化技术,总结了各种方法的优点和缺点;最后讨论了Storm任务调度优化在未来的若干发展方向,以期能够为Storm任务调度机制的进一步优化和应用提供参考。
- 单位