摘要
针对当前电网行业产生的海量数据,提出采用规范化元数据管理等方式来实现对电力行业数据的统一存储与管理方案。首先通过数据预处理,将不同格式的电力数据统一转换为XML格式数据,然后采用中间件技术实现对XML数据抽取与访问;其次,针对大规模数据存储问题,提出基于哈希分桶算法对数据进行存储,以提高数据存储的效率;再次采用MapReduce框架对数据进行查询;通过对电力行业的部分数据进行查询试验,结果表明在查询时间方面,具有优势。
- 单位
针对当前电网行业产生的海量数据,提出采用规范化元数据管理等方式来实现对电力行业数据的统一存储与管理方案。首先通过数据预处理,将不同格式的电力数据统一转换为XML格式数据,然后采用中间件技术实现对XML数据抽取与访问;其次,针对大规模数据存储问题,提出基于哈希分桶算法对数据进行存储,以提高数据存储的效率;再次采用MapReduce框架对数据进行查询;通过对电力行业的部分数据进行查询试验,结果表明在查询时间方面,具有优势。