摘要
针对现有的跨级高效用项集挖掘算法非常耗时且占用大量内存的问题,提出一种基于数据索引结构的跨级高效用项集挖掘算法(DISCH)。首先,为了高效存储和快速检索到搜索空间中所有项集,拓展带有分类信息和索引信息的效用链表为数据索引结构(DIS)。然后,为了提高内存利用率,对不满足条件的效用链表所占的内存进行回收再分配。最后,在构建效用链表时使用提前结束策略,从根本上减少效用链表的产生。基于真实零售数据集和合成数据集进行的实验结果表明,与CLH-Miner算法相对比,所提算法在运行时间上平均降低了77.6%,同时在内存消耗量上平均降低了73.3%,可见该算法能高效完成跨级高效用项集的搜索,并且能降低算法的内存消耗。
- 单位