摘要

如今无界、乱序的大规模数据集越来越普遍,并且消费者对这些数据集的处理需求日益复杂,如时间语义、窗口以及处理时延等。针对在无界、乱序的大规模数据集上演进的数据处理需求,探讨了大数据处理中的数据流计算模型。一方面,从执行引擎层面分析了大数据处理中的数据流计算模型所体现的数据流图;另一方面,从统一编程层面分析了大数据处理中的数据流计算模型所体现的数据流编程模型。在此基础上,进一步结合Spark批处理引擎和Flink流计算引擎等多个执行引擎,对比分析了数据流图和数据流编程模型在2类执行引擎中的具体实现。