摘要

为了能够更好地开展隐私保护数据挖掘工作,描述该领域的研究进展。针对基于随机的干扰方法中典型代表EMASK算法,用粒度计算的思想提出改进意见,将关系数据表转换成面向机器的粒度关系模型。这种计算方法使用了数据的垂直Bitmap表示,利用位操作的方法来保证准确性不降低的情况下,减少I/O操作的次数,降低空间开销,同时在生成频繁项集时,也记录了其在扭曲后数据中的支持度,减少了文件的访问次数,由此提高计算效率。针对现实世界事务数据库变化情况,利用减量式更新算法技术来解决减量式事务数据库频繁项集计算问题。实验结果证明,无论是在固定减量集数据库还是可变减量集数据库处理中,BDEMASK相对于EMASK而言,时间效率都有很大幅度的提高。