摘要

当前,传统的数据库技术及单纯基于Hadoop的分布式计算方法已无法满足离线数据和业务量的快速增长需求,运行成本大、工作效率低、用户体验差。文章提出基于TDH+Hive的离线计算平台,采用TDH作为离线数据存储平台,并通过Azkaban任务调度工具在Hive中对数据进行相应的ETL转换,根据不同作业对实时性要求的差异,将运行时间分散到不同时间段,实现系统性能的平衡,提升离线大数据的处理效率,同时能够精简数据、节省存储空间,降低后续的开发成本,提升开发效率。

  • 单位
    陕西邮电职业技术学院