摘要

Hadoop是一个能够对大数据进行分布式处理的软件框架,由于数据量特别大,备份它的所有数据必然是一个挑战。本文实现了一种快速、高效地对一个Hadoop系统上数据进行全备份的策略。首次全备份Hadoop上的数据需要读取和传输所有的数据,以后的全备份只需读取和传输变化的数据,对于没有变化的数据不需要进行读取和传输,直接把上次备份的image引用到新image中。由于Hadoop系统中数据的变化率比较低,这种实时的合成备份速度快、效率高。

  • 单位
    防灾科技学院