摘要

内存检查点是当前最流行的容错技术之一,它通过对节点的分组来保存和恢复工作状态。但是,内存检测点技术的弊端之一便是不能有多个节点在同一分组中同时失效,否则整个系统便不能恢复。根据超级计算机的计算节点网络拓扑结构,提出了一种新的节点分配模型,对当前的分组方式做出了很大改进,实验结果表明,相对于传统分组方式,改进的节点分配模型使同组中多个节点同时出错的概率得到了降低,从而使得全系统恢复的开销相应减少了许多。