摘要

随着对基因致病理论研究的深入,产生了大量的异质基因表达量数据,且这些基因数据普遍存在高维度、非对称和高噪声等特性,因此通用的聚类算法面向异质基因数据的聚类精度不高.本文提出了一种面向异质基因数据的智能层次聚类算法(HCIGA).构建了融合精英保留法与轮盘赌的选择算子,并通过优化适应度函数和小生境策略保持种群多样性,加快收敛速度,提升聚类精度.HCIGA的有效性在脑肿瘤、肺癌、肾脏癌和乳腺癌数据集上进行测试,结果表明,与层次聚类算法(AGNES)、遗传K-Means算法(GKA)、DPeak和谱聚类算法相比,HCIGA算法的聚类精确度在五种算法中均为最佳,本文并将HCIGA算法应用于头颈部鳞状细胞癌(HNSC)数据集,成功识别出6种癌症亚型.