基于Spark的SKA1-MID自校准管线分布计算实现

作者:戴伟; 汪森; 李秋虹; 邓辉; 梅盈; 王锋*
来源:天文研究与技术, 2020, 17(03): 334-340.
DOI:10.14005/j.cnki.issn1672-7673.20191226.001

摘要

平方千米阵列(Square Kilometre Array, SKA)科学数据处理产生的数据超出了所有已存在的分布式处理系统的处理能力,如何实现一个分布式执行框架是当前科学数据处理的一个重要研究内容。Spark是一个非常成熟的商业框架,在互联网中被广泛应用,根据平方千米阵列项目进展的要求,重点研究了如何将算法参考库(Algorithm Reference Library, ARL)中的部分管线移植到Spark上执行。对部分实现过程进行了分析讨论,给出了相应的任务流程。最终结果表明,移植后代码生成结果符合预期,Spark能够满足部分分布式数据的要求,但迫切需要解决自身存在的一系列问题。