针对海量数据分布式序列数据量大、增长速度快、序列重复性高等特点,结合HBase分布式数据库的相关理论和技术提出并实现了一套基于HBase的海量数据分布式序列存储方案。该方案设计了基于分布式数据分类码的预分区和行键优化策略,解决了服务器的均衡负载问题。通过构造文件索引替代二进制码序列实现了数据的高效存取。利用HBase协处理器实现了分布式序列记录单次提交多表插入的功能,提升了分布式多格式存储的效率。实验表明,通过上述方案设计的分布式序列存储系统具有良好的存储能力和扩展性。