基于MapReduce-HBase的Apriori算法的改进与研究

作者:程阳; 章韵*
来源:南京邮电大学学报(自然科学版), 2018, 38(05): 91-99.
DOI:10.14132/j.cnki.1673-5439.2018.05.013

摘要

Apriori算法是关联规则数据挖掘领域最经典的算法之一,其挖掘效果已经得到了企业界的广泛认可。大数据时代的到来,使得Apriori算法已经无法适应海量数据挖掘的需求。文中基于剪枝策略、MapReduce编程模型对原始Apriori算法进行改进(MR-Apriori算法);在此基础上引入HBase数据库继续对MR-Apriori算法改进(MRH-Apriori算法),实现了Apriori算法并行化。在Hadoop集群上对MR-Apriori算法和MRH-Apriori算法分别从不同事务集规模、不同节点数、不同最小支持度三个方面进行对比,结果表明MRH-Apriori算法具有更高的高效性和良好的可扩展性。

全文