基于SQL模版的大数据批处理设计与实现

作者:曾姣艳; 高宋俤; 曾美艳
来源:沈阳工程学院学报(自然科学版), 2022, 18(02): 90-96.
DOI:10.13888/j.cnki.jsie(ns).2022.02.018

摘要

大数据的组件种类繁多,选择合适的组件及其调用方式能极大地降低大数据平台的使用成本。基于SQL模版的大数据处理平台,让业务方仅需掌握SQL语句就可以选择平台底层不同的计算引擎完成数据分析工作。平台选用了基于ANTLR解析SQL的大数据组件——Hive、Spark SQL、Presto来作为底层批处理和即席查询的计算引擎,利用ANTLR工具实现了对SQL语句二次解析和定制化开发工作,解决了业务方数据权限的难题。平台架构从上往下分为数据拉取层、SQL语句解析路由层及底层计算引擎和分布式存储层,使用Airflow组件作为作业调度,利用SQL语句模版完成了数据拉取、数据质量监控和业务方数据分析处理的工作,极大地降低了业务方的技术成本,简化了大数据平台搭建及二次开发的复杂度。

  • 单位
    郴州职业技术学院; 福州外语外贸学院

全文