摘要

MPI是大规模集群和网格平台中最通用的编程环境,但其运行环境经常会因为节点或网络的故障而出现错误,所以有必要为MPI 编程提供容错机制。本文分析了实现MPI 程序容错的关键技术,并针对运行MPICH P4 的LINUX集群,利用检查点和消息日志技术,通过改造和扩充MPI底层的P4 通信库,提出了一套MPI程序容错系统的具体实施方案。