摘要
目前涌现出大量高维的基因表达数据、图像、文本数据,高维数据对传统的聚类分析方法提出挑战.CLIQUE是最早提出在子空间中搜索稠密簇的聚类算法,它综合了基于网格聚类和基于密度聚类的算法特点,从单一维度开始自底向上地搜索子空间中的簇.但由于算法复杂度与参数敏感度较高,同时它采用的固定网格划分、MDL剪枝等技术,容易破坏密集区域的边缘或者丢失一些有用信息,使得算法在处理高维数据时不能满足效率、准确率等方面的性能要求.本文基于CLIQUE提出了改进的HDGCLUS(High-Dimensional Genomic data subspace CLUStering)算法,HDGCLUS采用基于稀疏区域的动态网格划分技术,实现了网格的动态划分和稠密区域的动态合并,并加入了边界调整技术,减少了初始候选密集单元个数,避免了人工输入网格参数和边界数据信息的丢失,提高了聚类质量和算法效率.同时HDGCLUS采用静态剪枝和信息增量动态剪枝相结合的技术,进一步降低了算法复杂度,优化了算法性能,并在真实数据集上取得良好的实验效果.
- 单位