摘要

针对基因芯片技术带来的海量基因表达数据,为了充分挖掘其蕴含的生物信息和潜在的生物机制,提出一种基于CCA-层次聚类的基因聚类算法(CCA-Hc)。该算法在层次聚类的基础上引入典型相关分析,优化相似性矩阵计算方法。首先,利用典型相关分析方法结合基因的多个特征信息进行基因相关性度量,得到基因相似性矩阵。然后将该相似性矩阵作为层次聚类的邻近矩阵进行凝聚层次聚类。在Oryza sativa L.(水稻)的基因表达数据集上进行CCA-Hc聚类效果测试实验,结果表明,与采用欧式距离的传统层次聚类算法(EUC-Hc)相比,CCA-Hc的内部稳定性指标和生物功能性指标均优于EUC-Hc,具有更佳的鲁棒性和聚类准确性,更有利于去发现基因间的共表达关系。