摘要

针对混合属性数据聚类难度高的问题,提出一种基于广义线性模型的混合属性数据聚类方法。首先,构建低阶多元广义线性模型处理海量数据聚类问题,考虑数据属性的时间特性,获取属性时间序列矩阵;然后考虑样本同聚类中心距离基础上兼顾已知样本信息内容,采用优化方法计算数据相异度、样本与聚类集间距离。通过实验结果分析可知:文中方法经过较少次迭代即可优化划分混合属性数据聚类集,聚类适应度值在0.88~0.94之间,适应度优,该方法可准确体现样本间差异,是一种准确度较高的混合属性数据聚类方法。

全文