摘要
文中对医疗行业的区域化群体数据挖掘方法进行了研究。通过引入模糊数学理论中的隶属度概念,使得K-means算法在分类时不再按照聚类中心来严格划分数据点,提升了数据点分类的稳定性,使算法在迭代的过程中更容易收敛。同时,引入了Hadoop平台下的MapReduce模型对所提算法进行并行化处理,将数据划分为不同的数据切片,使每个切片在不同的计算节点上完成聚类。以河北某地区的实际医保数据为样本进行了算法测试,在聚类精度上,模糊K-means算法相较于传统算法提升了约8.19%。基于文中搭建的分布式存储系统计算集群,当采用8节点进行并行计算时,算法的Speedup与Scaleup分别为3.6和0.58,通过充分利用每个计算节点的计算资源,有效降低了运行时间成本。
-
单位河北北方学院附属第一医院