摘要
互联网+时代,信息交流和社交方式都发生了极大的变化,自媒体的数据产生方式让大数据时代加速到来。Hadoop云计算实现框架是大数据管理中最优的解决方案,使用最为广泛,效果最为明显。文中针对运用云计算和云平台Hadoop的知识,对现有数据挖掘技术中的关联规则进行分析,对经典Apriori算法进行梳理并提出了一种基于MapReduce的改进Apriori数据挖掘算法。最后,通过Hadoop平台进行仿真实验,算法用Java实现,通过对训练数据迸行挖掘,结果表明改进算法在处理大数据时空间复杂度更低,且挖掘时间随着数据规模的增大呈线性增长。实验结果表明,改进算法在进行大数据挖掘比经典算法有了性能的提升。
- 单位