摘要

目前数据量越来越大,存储空间不足,但数据源中带有重复性质的数据比例过高,导致数据的冗余度偏高。为解决这一问题,提出一种基于数据源中数据密度分布不同的密度区域划分算法。将数据源中高密度数据区域进行筛选提取,对此区域中的具有高度重复性质的数据进行降低冗余度的擦除动作,达到降低数量级压缩数据源的目的。实验结果表明,相比传统的数据压缩LZW算法,该算法的数据压缩策略在压缩率与数据适用性上更具优势与灵活性。

全文