摘要

信息技术和医疗健康信息化的不断发展使医疗数据大规模涌现,为数据分析、数据挖掘、智能诊断等更深层次的应用提供了条件。医疗数据集庞大且涉及大量病人隐私,如何在使用医疗数据的同时保护病人隐私极具挑战性。目前应用于医疗领域的隐私保护技术主要以匿名化技术为主,但当攻击者具有强大的背景知识时,此类方法无法兼顾数据集的隐私性和可用性。因此提出了一种优化分类树算法,并改进了Diffpart分区算法,以数据间关联性为前提,挑选出医疗集值数据集中的适当数据,利用差分隐私保护技术进行加噪处理,满足差分隐私干扰并支持统计查询。最后在24万余条真实医疗数据集上进行测试。实验结果表明,所提算法满足差分隐私分布,并且相比Diffpart算法具备更高的隐私性和效用。