关于HBase Region Overlap问题自动修复的研究

作者:丛储俊; 张伟
来源:新型工业化, 2022, 12(03): 4-7.
DOI:10.19335/j.cnki.2095-6649.2022.03.002

摘要

Apache HBase(简称“HBase”)是基于Apache Hadoop(简称“Hadoop”)构建的一个高可用、高性能、多版本的分布式NoSQL数据库,是基于Hadoop系列技术的大数据平台重要组成部分,通过在廉价服务器上搭建大规模结构化存储集群,提供海量数据,实现高性能的随机读写能力。HBase将table分割成多个region,通过region的分裂、合并、迁移等操作实现其可扩展性、负载均衡、故障转移等特性。每个region将会存储row落在指定区间的数据,这些区间彼此是不重叠的,但是在长期运行过程中,由于种种原因,偶尔会有部分甚至大量的region区间出现重叠,这将导致对该区间的读写产生错误,这就是HBase Region Overlap问题。本文将就HBase 2.x以后的Region Overlap问题提出一种比较方便快捷的修复思路,并给出部分Java实现代码。

全文