一种基于Spark的国产化海量数据预处理和计算技术

作者:丁派克; 曹芳芳; 王晓玲
来源:航天控制, 2019, 37(06): 54-58.
DOI:10.16804/j.cnki.issn1006-3242.2019.06.010

摘要

以提升航天大数据软件的数据处理性能为目的,以原有的MapReduce框架为基础,提出一种新的面向国产平台的基于Spark内存计算和数据预处理技术相结合的技术。将原软件框架的数据解析算法前移,采用Kafka消息队列对不规格数据进行分布式预处理。针对MapReduce框架消耗内存过大的问题,利用RDD调用机制与Spark内存计算的优势,采用一种基于Spark的快速处理框架,并在国产平台上进行了移植适配。经工程验证,新的基于Spark框架的数据处理性能较之前的MapReduce的数据处理性能有了显著提升,稳定实现了在面向全国产平台的大数据批处理技术的性能优化。

  • 单位
    北京航天自动控制研究所