摘要
关联规则挖掘一直都是数据挖掘的重要任务,然而随着大数据时代的到来,数据规模呈指数形式增长,传统的串行挖掘算法已经面临着内存和计算资源不足等问题。针对上述问题,提出了一种基于MapRedcue并行编程模型的改进Eclat算法——IMREclat算法。IMREclat算法使用2个MapReduce任务,主要分为3个阶段:首先,平均划分事务数据库,并行挖掘频繁2项集。然后,将频繁2项集转化为垂直数据格式并利用二进制存储事务列表,按照等价类和其权重值分组。最后,将分组后的数据作为输入,通过利用预剪枝性质改进后的Eclat算法并行挖掘所有的频繁项集。实验表明,IMREclat算法在运行时间上优于现有的MREclat算法,并有良好的扩展性能。
- 单位