Spark平台下关联规则算法的优化实现

作者:梁瑷云; 袁丁*; 严清; 刘小久
来源:计算机工程与设计, 2018, 39(12): 3692-3699.
DOI:10.16208/j.issn1000-7024.2018.12.017

摘要

利用Spark平台的高速计算能力,将传统的关联规则算法移植到Spark平台上,虽然一定程度上提高了该算法的运行效率,但该算法本身存在的系统I/O负载量大、存储开销大等问题依然存在。为此,提出一种基于矩阵的并行化优化算法AprioriMCSP。引入矩阵概念减少事务数据库的扫描次数,充分利用Spark内存计算的弹性分布式内存数据集对象,存储事务布尔矩阵以及频繁项集。相较于传统的Apriori算法,该算法减少了事务数据库的访问次数,简化了Apriori算法的"自连接"以及"剪枝"过程。实验结果表明,提出方案在保证输出结果不变的情况下,加快了关联挖掘的执行效率。

全文