摘要

已有数据增量式聚类算法忽略了数据的降维过程,导致算法无法聚类处理属性较多的高维数据。现提出基于改进Spark技术的高维数据增量式聚类算法。基于混沌分区方法重组高维数据结构,获取模糊数据分布轨迹。采用基于信息熵的高维稀疏降维算法,筛选分布空间中的高维数据特征,完成数据降维。改进Spark技术,设计并行化增量式高维数据聚类优化算法,检测降维后数据特征之间的关联性,并融合数据特征,确定聚类中心后完成高维数据增量式聚类。测试结果表明,高维数据的嵌入维数为7时,算法的重组效果较好,有效实现数据集的维度下降,降低了存储空间的占用率,可完成高维数据的有效、可靠聚类。

  • 单位
    石家庄铁道大学四方学院