摘要

针对消息传递接口(MPI)在高性能计算领域的应用场景,为了优化MPI现有数据集中管理模式,增强其对大数据的处理能力,借鉴并行与分布式系统思想,开发设计一套适用于大数据处理的基于MPI的数据存储组件(MPI-DSP)。首先,创建接口函数,以对MPI系统影响最小的方式实现"计算向存储迁移"的设计目标,将文件分配与计算进行分离,使MPI突破大数据文件读取时的网络传输瓶颈。然后,分析阐述设计目标、运行机制、实现策略,通过描述接口函数MPIOpen在MPI环境下的应用,验证设计理念。通过Wordcount实验对比使用MPI-DSP组件与原MPI在数据文件处理方面的时间性能,初步验证了MPI"计算向存储迁移"模式的可行性,使其具备在高性能应用场景下的大数据处理能力。同时分析了MPI-DSP的适用环境和局限性,界定了其应用范围。