摘要

为了探究学生成绩与其毕业去向之间存在的内在关系,提出基于Hadoop的Canopy-Kmeans并行算法并进行分析.首先基于"最小最大原则"确定Canopy的初始中心点并快速粗糙聚类,将其作为K-means算法的初始聚类中心,并基于MapReduce计算框架实现其并行化.然后以西安工程大学2017届毕业生的教务数据为基础,进行海量教务数据的挖掘分析实验,完成相同毕业流向类型学生的聚类,同时分析各毕业流向与课程之间的内在联系.实验结果证明,改进后的Canopy-K-means算法在处理海量数据时,相比传统K-means算法,聚类收敛速度提高约2.1倍,准确率提高约15%,具有良好的聚类效果.

全文