摘要
Apriori算法是关联规则数据挖掘领域最经典的算法之一,其挖掘效果已经得到了企业界的广泛认可。大数据时代的到来,使得Apriori算法已经无法适应海量数据挖掘的需求。文中基于剪枝策略、MapReduce编程模型对原始Apriori算法进行改进(MR-Apriori算法);在此基础上引入HBase数据库继续对MR-Apriori算法改进(MRH-Apriori算法),实现了Apriori算法并行化。在Hadoop集群上对MR-Apriori算法和MRH-Apriori算法分别从不同事务集规模、不同节点数、不同最小支持度三个方面进行对比,结果表明MRH-Apriori算法具有更高的高效性和良好的可扩展性。
- 单位