摘要

基于拆分机制并行处理实现大数据量高性能处理的方法,对于电信的话单海量数据通过设置拆分规则,将需要处理的海量数据,平均地拆分成多个文件,并利用文件处理系统的多线程和多CPU并行处理,快速处理海量数据:在文件处理系统中并行处理的过程是模拟数据库sql算法进行计算;通过先罗列出每个汇总表所需要的维度和指标字段,再取并集的方法,制定出一个抽取海量数据源表的SQL语句,读完所有后续海量数据汇总表所需要的信息;组装入库:平均地拆分成多个文件中的形成的小文件汇总工作都完成之后,将所有的结果文件按照目标表类型分别拼接成大文件,然后装载进汇总表;这部分工作可以利用数据库特有的快速入库命令来完成。