基于Hadoop的二分K均值改进算法

作者:王嘉旸; 万青云; 闫天伟
来源:科技广场, 2016, (09): 4-8.
DOI:10.13838/j.cnki.kjgc.2016.09.001

摘要

传统的二分K均值算法在二分过程中采用随机选择的方式选择聚类质心,为了选择到理想的质心,需要重复选择多次,这种方式的时间代价比较大。为此,本文提出采用极大距离点作为质心的方式,有效的降低了时间复杂度,同时运用点抽样的方法避免离群点带来的影响。同时,考虑到随着时代的发展,我们面临的数据量会越来越大,本文提出了一种基于Hadoop分布式平台的并行二分K均值算法,实验表明,该并行算法能够获得较为理想的加速比。

全文