摘要

海量分布异构数据给企业数据治理带来严重挑战,加速数据仓库和数据湖向结合二者功能的湖仓一体转变。通过比较数据仓库、数据湖和湖仓一体之间的差异性,分析湖仓一体的优势及其面临的挑战,再通过划分业务领域并映射到数据视角来构建分布式湖仓一体架构,综合已有研究和相关技术构建湖仓一体功能模块,并阐述动态流批一体数据流转过程。分布式湖仓一体架构包括数据领域解耦、跨领域数据共享、联合数据治理等构建理念;湖仓一体功能模块主要包括数据源、湖仓一体核心功能区和用户;流批一体数据流转过程包括批量数据过程和实时数据过程。本研究可为湖仓一体融入有效数据治理过程,构建较为完善的湖仓一体架构体系,从而为相关研究或企业提供参考。