摘要

关联规则是数据挖掘常用的算法之一,能够根据数据之间的关联程度进行数据的分析和挖掘。关联规则,特别是Apriori算法在关系型数据的处理上得心应手,但是对大数据的处理存在着不能够自动负载均衡及容错能力差等诸多弊端。文章从Map Reduce算法着手,介绍了大数据下关联规则的相关概念及Map Reduce分布式计算模型,在此基础上介绍了Map Reduce模式下的关联规则算法及其优点,Map Reduce模式下Apriori算法有效实现关联规则的数据挖掘,并且能够在Hadoop下实现负载均衡及容错能力。

全文