摘要
面对海量信息的有效存储,为了保证存储信息的抽取和查询的效率,研究基于云计算技术的海量信息分布式的存储方法。采用GFS作为分布式文件系统和HDFS管理节点/存储节点架构作为分布式存储技术的依据,形成极大存储容量的计算机群,对信息实行并行处理;生成事实表,分析和处理不同维度和粒度的情况下的信息后,对其实行数据聚集;采用基于云计算技术改进ETL处理算法实行海量信息抽取,存储在数据库中,用户即可根据需求实行数据库信息查询。实验结果表明,该方法的存储性能较好,物理节点的增加会提高信息的插入效率,并且抽取后的信息信噪比较高,信息查询速度较快。