基于Apache Beam的并行化空间数据分析方法

作者:王翰诚; 姜良存*; 李皓; 梁哲恒; 乐鹏
来源:测绘地理信息, 2022, 47(S1): 85-88.
DOI:10.14188/j.2095-6045.2021354

摘要

近年来,分布式数据处理框架已经成为高效处理海量空间数据的常用解决方案,但由于不同框架的数据组织结构和计算模式的差异,导致了算法复用性和算法迁移效率低下。目前已有一些平台无关的分布式计算框架,如Apache Beam等,但其不支持空间数据和空间操作。本文提出了一种基于Apache Beam的时空大数据并行空间分析方法,通过对Beam模型的空间扩展,将空间数据的所有操作抽象为对空间并行集合的空间并行转换,以屏蔽底层分布式操作的细节。该扩展的框架能够运行在Spark、Flink等分布式计算引擎上,支持大规模空间数据的高效并行化处理,为大规模空间数据的快速处理提供了一种有效的分布式计算解决方案。

全文