摘要
大数据处理面临数据信息缺失、信息杂乱、数据污染等诸多挑战,而离群点的检测与剔除是大数据分析中一个重要的预处理过程。本文针对数据分析中的子空间聚类问题,在数据受到离群点污染的情况下,基于离群点稀疏性的先验知识,对经典的ksubspace子空间聚类算法融入1范数正则化,并采用随机梯度下降优化方法进行子空间聚类,以克服大数据处理计算量大和内存需求高的困难。通过数值仿真,本文方法能够保证在数据受到严重离群点污染的条件下,可以精确检测并剔除离群异常数据,从而获得准确的子空间聚类结果。
-
单位南京南瑞集团公司; 南京信息工程大学