摘要

为了向航空制造业的海量数据处理提供一种新颖的模式,以Hadoop开源软件平台为架构,介绍了HDFS分布式存储系统和Map-Reduce编程模式,分析了航空制造业海量数据处理需求,提出了一种应用于航空制造业的海量数据处理模型,即将数据格式划分为若干个主要字段,按照该数据格式在分片中对数据进行深度优先挖掘,将提取出的数据以键值对的形式并按照一定的存储格式存储于HDFS中,利用Map-Reduce并行算法对存储的数据进行排序和分区处理。最后提出了基于K-NN的并行化数据挖掘算法,且分析了海量数据处理模型的扩展性、实时性和快速处理等性能。