摘要
为改善传统K-modes在无序分类数据聚类中忽略多属性和属性间差异的问题,以及解决算法在高维和动态增量数据聚类的应用,提出基于Spark与改进K-modes增量聚类方法。提出多属性值modes的新相异度度量方法,在保留多属性的同时,引入基于信息熵的属性权重计算方法,以综合考虑不同维度下属性差异;提出基于多原则的迭代方法对聚类中心K进行优选,提高聚类准确率;基于Spark平台,引入增量聚类思想运行改进算法;最后搭建Spark实验环境对提出方法进行验证,结果表明改进K-modes聚类的准确率明显优于传统K-modes算法,且并行化算法在对增量数据执行效率和准确率上也具有明显优势。