摘要
针对目前频繁模式挖掘算法存在的建树复杂、挖掘效率低下等问题,提出一种基于差异点集(DiffNodeset)的Top-rank-k频繁模式挖掘DNTK算法。利用差集运算直接获取k (>2)项集的差异点集,避免项集多次复杂连接过程;结合一种线性时间复杂度连接方法和早期修剪策略,提出一种更为高效的1-项集连接方法,及时判定项集连接可行性;采用包含索引策略减少项集连接次数。实验结果表明,DNTK算法在时间和空间效率方面性能优于FAE和NTK算法,在不同类型数据集中进行频繁项集挖掘时有良好的效果。
-
单位通信与信息工程学院; 重庆邮电大学; 中国电信股份有限公司