基于数据湖的环境大数据存储模型

作者:李硕; 卢华明*
来源:北京信息科技大学学报(自然科学版), 2021, 36(06): 81-86.
DOI:10.16508/j.cnki.11-5866/n.2021.06.015

摘要

针对环境大数据多源异构特性,提出一种基于数据湖分析(data lake analytics,DLA)的数据存储模型:在对环境数据组成进行分类划分的基础上,设计了环境数据的三层存储模型:在资源管理层实现数据采集,完成环境数据迁移到数据湖的格式转换;在存储层使用支持多种数据格式的对象存储技术,将数据湖作为多种环境数据源的唯一数据存储;在分析层计算模型可直接访问查询引擎,便于环境数据的查询分析,同时支持数据回流到结构化存储。构建一个基于DLA的环境大数据存储平台开展应用验证,结果表明:该存储模型在存储空间和查询时间2个方面的性能可达到优化90%以上的效果。