摘要

随着大规模数据收集技术、存储技术、网络技术以及信息技术的发展,越来越多的企业、组织和个人正逐步陷入数据泛滥但知识匮乏的困境中,聚类分析已经成为从大量冗余数据中提取有用信息的主要手段之一。目前,针对低维单类型数据的聚类算法研究已经相当成熟,但是,受“维度灾”的影响,许多针对低维数据的聚类算法往往不能应用于高维数据,对于混合型数据尤其明显。现实生活中高维数据又普遍存在,而且呈现逐步增多的趋势,比如:基因数据、网页数据、文本数据、多媒体数据、金融数据等,因此找到一种相对通用的聚类算法用于高维数据的聚类工作有着非常重要的现实意义,尤其是对高维混合型数据。针对这些问题,提出了一种子空间聚类算法,该算法综合考虑特征子空间和噪声子空间的信息,从而得到一个有效的子空间的自动搜索方式;进而又提出了一种能应用于混合型数据的相似度的度量方式,设计出了一种具有较好通用型的聚类算法,对高维数据进行聚类,该算法能应用于混合型数据聚类,具有一定的理论价值和现实指导意义。

全文