摘要

通常在云计算框架的处理过程中会产生大量的、短暂的,同时又非常重要的中间数据。一旦有服务器失效,将会导致中间数据失效,进而影响整个任务的计算。现有的数据容错处理方法仅仅采用简单的复制策略,没有考虑中间数据的特点,会带来庞大的网络开销。因此,提出了一种有效的分层中间数据容错方法,即IDFSupport(intermediate data fault-tolerancesupport)方法。通过将计算任务划分为不同类别,IDFSupport方法能够有效地处理中间数据失效。提出了分层的中间数据容错算法,分别是用于解决一个任务内部容错的中间数据容错算法(InnerTask IDF)和用于解决任务间容错的中间数据容错算法(OuterTask IDF)。实验结果表明,这些算法在机器出现故障的情况下提高了作业响应时间,保证了系统的可靠性。