基于Hadoop平台的数据挖掘算法应用研究

作者:陈娥祥*
来源:渤海大学学报(自然科学版), 2018, 39(03): 274-280.
DOI:10.13831/j.cnki.issn.1673-0569.2018.03.014

摘要

Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率.

  • 单位
    福建农林大学东方学院

全文