摘要

本次研究基于MapReduce模型在并行式环境中提出一种高性能的计算机数据挖掘算法,将模型输入由原始的一个样本转变为一组样本代以减少Map布局数量,节约算法访问Map的时间开销;在此基础上,从特征赋权角度对K-means聚类算法,对差异簇的差异特征进行权重赋值,以降低特征数据噪声。测试结果显示,该算法在MapReduce并行式环境下呈现良好的数据挖掘准确率,并且聚类收敛用时最低,处理计算机大数据挖掘问题具有一定优势。

  • 单位
    六安职业技术学院