摘要

越来越多的应用基于大数据平台中的HBase表对海量数据进行高并发快速查询,但大数据集群中HBase表的存储设计和高效查询仍面临较多问题。本文为提高HBase表的高并发高效查询效果,提出了一种分表、预分区相结合的存储方法,有效解决了HBase表数据过多无法稳定存储及数据倾斜的问题,同时提出了一种在Spark模式下运用local的模式,根据所设计的RowKey进行负载均衡的高并发快速查询的方法,提高查询效率及稳定性。实验结果表明,上述方法能使数据均匀分布在集群中,同时具有较高的大数据量存储及查询性能。