摘要
大数据在各个领域的快速发展,推动着企业不断地发展新业务和创造新的发展模式,企业大数据的应用和挖掘,成为企业提高竞争力的关键因素之一。关联规则作为数据挖掘研究的主要领域,频繁模式的发现是提高关联规则挖掘效率的关键,随着数据量的不断增加,频繁模式发现过程存在I/O代价大和内存占有高等不足,本算法对数据集中事务项,采用MapReduce分布式编程模型,用两对Map和Reduce函数,实现了支持度计数和频繁项集生成,最终生成关联规则。最后,采用企业信息化调研数据,实验验证了该算法的可拓展性和可收缩性。
-
单位山西大同大学