摘要
针对传统的关联规则数据挖掘算法Apriori在处理海量数据时效率低、扩展性差等问题,提出利用Hadoop平台的编程模型MapReduce实现Apriori算法并行化的方法,通过改变数据集的大小、最小支持度、最小置信度、节点数目等几个实验对算法性能进行测试。测试结果表明,经过改进后的Apriori算法,具有良好的并行扩展能力,能够满足大数据处理的需求。实例分析将该算法应用到学生成绩数据中,验证了其有效性,能更好地为教育决策服务。
-
单位南京师范大学泰州学院