摘要

针对目前气象数据存储所面临的海量扩张、高并发读写、结构化和非结构化数据并存以及长时间序列和大数据集检索效率低下等问题,提出了以Hadoop开源框架为基础的气象数据分布式存储方案。通过对气象数据自身属性和特点进行分析,得出了气象数据在经过充分优化的基础上,在分布式存储框架中具有很强的适应性和规模化应用的潜力;并在HBase数据库中的Row Key设计和小文件合并策略方面做了创新。最后针对气象数据中广泛存在的结构化和非结构化这两种主要数据类型,以自动气象站数据和雷达产品数据为具体实例,给出了详细的设计思路和实现方法。