摘要
传统聚类算法实现大数据集聚类时,耗费大量的时间和内存,无法适应大数据流的动态性,聚类稳定性较差。因此,提出基于优先聚类和高斯混合模型树的递增聚类方法。采用优先聚类算法对大数据集进行优先聚类,获取典型数据集,降低大数据集的数据复杂度,采用高斯混合模型树的递增聚类算法,将典型数据集中的数据插入到高斯混合模型树内,塑造数据集的高斯混合模型树,树的叶子节点和非叶子节点分别同单高斯数据分布和高斯混合模型分布对应,基于插入结果对高斯混合模型树实施调整,检测插入到模型树内的数据是否需要删除,并完成数据的删除操作,采用广度优先方法获取最佳的树节点作为最终的聚类结果。实验结果表明该算法取得了很好的效果,具有较高的可扩展性和稳定性。
- 单位