摘要

Apache HBase是当前互联网公司广为使用的开源NoSQL数据库.小米公司几乎所有的在线业务,包括米聊和小米云服务,都使用HBase作后端存储.在海量数据处理应用中,发现HBase的功能存在一定的缺失,在写入吞吐量等性能度量上存在瓶颈.本文针对移动互联网在线业务的特点,基于现有HBase版本提出可保证数据一致性的局部二级索引功能和反向扫描功能,并提出了可配置的细粒度跨集群复制概念,显著提升了单机写吞吐性能.经过全面测试,上述设计和改进方案极大提升了HBase的应用性能,并被部署到了小米的生产集群中.

  • 单位
    小米科技有限责任公司; 软件工程国家重点实验室; 武汉大学