摘要
针对模糊C均值聚类(Fuzzy c-Means Clustering,FCM)算法聚类过程迭代的特点,采用迭代式MapReduce模型对FCM算法进行了优化实现;Map函数计算每个样本到聚类中心的隶属度,Reduce函数接收Map函数的中间输出计算新的聚类中心,传递模块将最新聚类中心传送给原Map任务所在节点,供新一轮MapReduce job使用;迭代式MapReduce模型在MapReduce基本模型上添加了传递模块,有效解决了基本模型在处理迭代问题上存在的不足;在Hadoop平台中,分别使用基于迭代式MapReduce和MapReduce基本模型的FCM算法对变压器进行故障诊断;实验结果表明,基于迭代式MapReduce的FCM算法诊断速度达到了基于MapReduce基本模型算法诊断速度的12倍以上,误判率降低了12%15%,有效提升了FCM算法的诊断效率。
- 单位