摘要

疾病致病基因的发现是基因组研究的重大挑战之一.近年,随着生物学数据的积累,许多研究人员利用计算方法进行致病基因预测.但其中大多都基于基因相互作用网络或其他相似性网络数据等,很少考虑特定基因的局部网络连接与它们的差异表达信息之间的潜在联系.本文基于基因相互作用局部网络结构和基因的差异表达信息探索癌症致病基因及其邻居基因的生物特性,并依据新发现的特性采用机器学习方法进行癌症致病基因预测.首先,从TCGA(The Cancer Genome Atlas)数据库和OMIM(Online Mendelian Inheritance in Man)数据库中获取21种癌症相关的基因表达数据及其致病基因数据,并依次将人类蛋白质相互作用网络和各癌症对应的组织特异性相互作用网络作为背景网络,分析不同生物学网络的邻域信息和患病前后基因表达的变化信息之间的潜在生物特性.接着基于发现的生物特性定义基因节点特征的向量表示方法,并采用支持向量机进行致病基因预测.实验结果通过ICGC(International Cancer Genome Consortium), COSMIC(Catalogue Of Somatic Mutations In Cancer), NCG(Network of Cancer Genes), OncoKB(Oncology Knowledge Base)等标准数据库和相关文献,以及疾病注释和通路富集进行验证.结果表明,根据发现的致病基因的特性进行基因特征定义,能够将癌症致病基因与其他基因进行区分,并为癌症致病基因预测提供有力假设,为相关生物实验提供可靠致病基因候选集,进而推动对癌症这一复杂疾病致病机理的研究.

全文