摘要
数据挖掘技术可以从大量无规则的数据集中获取有效的信息,由于大多数的数据为混合性数据,为了提高处理混合属性数据算法的性能和聚类质量,提出基于群体智能算法的混合属性大数据聚类方法。首先将数据集分为数值和分类两个属性子集,采用对应的聚类方法对两个子集进行多次聚类,并利用共识函数对聚类的结果进行融合,构建出混合属性数据分段融合框架。然后为了避免类中心数据一致导致的空簇问题,利用信息熵对数值属性数据加权处理,再采用平均差异度方法选择每个数据对象的初始聚类中心。最后对待分类数据样本的聚类中心编码,为了衡量聚类问题的有效性,采用适应度函数对个体的好坏进行评价,利用改进粒子群智能优化算法的全局搜索能力找到数据集中的最优解、每次迭代后粒子更新后的最优位置。实验结果表明,上述方法聚类质量和聚类精度较高,不仅可以提高粒子的搜索效率,还能增强算法的鲁棒性。
-
单位郑州工业应用技术学院; 河南理工大学