海量数据下的并行频繁项集挖掘算法

敖孟飞; 石鸿雁<sup>*</sup>

doi:10.13546/j.cnki.tjyjc.2022.18.009

摘要

文章针对频繁项集挖掘中传统串行Eclat算法面对海量数据时挖掘效率不高的问题，提出一种海量数据下的并行频繁项集挖掘算法，即I-SPEclat算法。首先，对Eclat算法存在的缺陷进行改进，引入图的邻接矩阵作为数据的存储结构，避免了大量的交集运算；其次，利用先验性质对候选项集进行预剪枝和后剪枝，减少无用候选项集的数量，节约存储空间；再次，根据项集的前缀对数据进行划分，平衡每个计算节点的工作负载；最后，将改进的Eclat算法在Spark分布式计算框架上实现并行化。实验结果表明，I-SPEclat算法较已有的改进Eclat算法在时间消耗和内存消耗方面均有减少，且面对不同规模的数据集也有着良好的扩展性。

单位
沈阳工业大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 12:34

海量数据下的并行频繁项集挖掘算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友