摘要
通过指定期望结果项集数量挖掘top-k频繁项集,可解决频繁项集挖掘中支持度阈值难以设定的问题。由于能在较短的时间内得到足够多的精确结果,因此利用启发式方法挖掘项集的工作受到了越来越多的关注,但利用启发式方法来挖掘top-k频繁项集却鲜有研究。提出了一种基于交叉熵的top-k频繁项集挖掘算法KCE。首先,给出了将交叉熵应用于top-k频繁项集挖掘的建模方法;其次,提出了基于过滤支持度的搜索空间剪枝策略;第三,设计了利用按位交叉来产生下一代项集的策略,以提高样本的多样性。实验结果表明,KCE算法在运行时间和空间消耗上都有优势,且挖掘结果的平均精度在95%以上。
- 单位