摘要

在大数据挖掘过程中,海量数据之间存在着交错复杂的非单一关系,如何准确有效的对多关系数据进行聚类处理,是大数据分析领域亟待解决的难题。传统方法在多关系数据聚类时通常转化为单关系处理,导致出现数据维度增加和数据稀疏等问题,为此提出信息粒数据重构聚类方法。方法首先利用数据的邻域构造信息粒,根据距离关系得到信息粒中数据的相似度,并对信息粒数据采取重构操作,改善数据聚类的细粒度与柔和度;然后基于重构数据与隶属程度修复数据集中的非完整数据,考虑到简化算法和统一约束,引入增益项,并把信息粒限定条件融入目标计算里,从而得到只有隶属程度限定的聚类模型;最后优化聚类过程中的重构数据与隶属程度,保证重构数据的精准,抑制聚类偏差。实验结果表明,信息粒数据重构方法提高了多关系数据的聚类精度,对于不同类型的复杂数据集具有良好的普适性。