摘要

上海烟草商业由于建设了基于“互联网+”面向消费者现代营销体系,业务复杂度不断提升,业务数据量呈现爆炸式增长。虽然应用分布式多节点并行处理技术可以大幅提高计算效率,但是这也导致分布式计算系统中的数据倾斜问题成为大数据平台绕不开的难题。为此,文章提出通过数据预处理、提升分布式并行度、聚合及关联场景的算法处理等多种方法来解决数据倾斜问题。

  • 单位
    上海烟草集团有限责任公司