摘要

大数据给各行业带来新的发展机遇,面对各种复杂数据处理需求,高效的数据存储是影响大数据应用的重要因素,不仅决定了数据写入效率,还会影响数据读取。文章提出一种基于HDFS的写预处理存储系统,针对大数据应用中复杂数据写请求,使用聚类策略和文件拆分算法,对文件进行预处理,同时提高数据读取效率。通过仿真实验表明,能有效提高文件存储的写吞吐。