摘要

频繁项目挖掘是数据挖掘的研究热点之一,若数据集包含敏感信息,不作处理地发布挖掘结果会有隐私泄露的风险。目前已有本地化差分隐私的频繁项目挖掘算法,但还无法满足处理大数据时的实时性和数据可用性要求。针对这些问题,该文提出了一种新的面向本地化差分隐私保护的频繁项目挖掘算法—GFIM (group-based frequent items mining)。该算法把用户随机划分为不相交且大小相等的两组用户,整个运行过程分为两个阶段。第一阶段主要根据全部用户提交的信息挖掘出频繁项目的候选集C,而在第二阶段,两组用户分别通过设置冗余项把自身修剪为O(k)发送给数据收集者,最终的top-k频繁项目将利用上述两个阶段的结果。采用分阶段的思想减少了计算时遍历数据集的次数,加快了整体的运行速度。通过理论证明了该算法满足ε-本地化差分隐私,在多个真实数据集上的实验也验证了该方法的性能。