摘要

k-匿名模型作为常用的数据匿名技术,广泛应用于数据发布阶段的隐私保护。随着大数据时代的快速发展,海量数据的产生给数据存储带来了新的挑战。然而,存储器的成本较高且存储空间有限,通过硬件升级来无限制地扩充存储空间并不可行。为此,使用数据压缩技术可以减少存储成本和通信开销。为减少数据发布阶段使用匿名技术产生的数据的存储空间,提出了k-匿名模型隐私保护数据压缩方案。对于k-匿名模型的原始数据,按照设定的规则及原始数据同匿名数据之间的预设泛化层次关系计算两者的差值,并根据差值数据具有的频率特性对差值进行哈夫曼编码压缩。通过存储差值可以间接获得原始数据,从而减少原始数据的存储空间。对于k-匿名模型的匿名数据,根据模型的泛化规则或预设泛化层次关系,匿名数据通常具有较高的重复性,且设定的k值越大,匿名数据的泛化程度越高、重复性越强。对匿名数据设计实现哈夫曼编码压缩,减少匿名数据的存储空间。实验结果表明,所提方案能够显著降低k-匿名模型的原始数据及匿名数据的压缩率。在使用的5个k-匿名模型及不同k值的设定情况下,与Windows 11的zip工具相比,所提方案的原始数据压缩率和匿名数据压缩率平均降低了72.2%、64.2%。