摘要
随着大数据时代的到来,增量关联规则挖掘已成为数据挖掘领域的热门话题。CAN-tree作为增量关联规则挖掘领域的重要算法,其按项目频次大小进行排序会使树(tree)的规模过大,降低算法效率。针对此问题,提出一种基于AP-CAN的增量关联挖掘算法,采用AP聚类思想将原始数据集按项目的支持度不同分为多个集群,修剪不满足最小支持度的集群,利用哈希头表替代项头表,并根据数据量对每条事务排序。实验结果表明,该方法可以显著削减CAN树的规模,降低项目查找时间,提高数据挖掘效率,在效率和稳定性上均优于现有的CAN-tree算法。
- 单位