摘要
本文探讨了生命科学领域的一个热点问题—-疾病标志物识别,并且采用计算机科学领域网络分析方法解决该问题,这种交叉研究使其在理论和应用层面上都具有巨大的研究价值和科学意义。生物体是存储并加工信息的复杂系统,而该系统的核心是其组成成分准确地行使各自的功能并且相互协调合作,疾病的产生和发展往往是分子之间调控机制异常导致的,因此,设计有效的数学分析方法发现疾病相关的分子调控机理(疾病标志物),对疾病深入了解、创新药物研发、创新工具开发,治疗效果提升和医学科技发展起到举足轻重的作用。本文围绕疾病标志物识别问题,设计了三类有效的数学分析方法:基于单网络分析方法、基于双网络分析方法和基于多网络分析方法,其研究成果集中在如下几个方面:首先,作者提出了一种基于流形学习的脑网络公共谐波识别算法。通常,与疾病相关的大脑区域变化不是随机出现的,而是遵循大规模的大脑网络分布。在这种情况下,设计强大网络分析方法对于理解整个大脑的神经病理学机制是必不可少的。实际上,每个大脑网络的拓扑结构都由其内在的谐波控制,该谐波是从脑网络拉普拉斯矩阵的特征系统派生的一组正交基。为此,作者提出了一种新颖的脑网络谐波分析框架发现与脑部疾病相关的基于谐波的脑变化。该框架为脑谐波的分析专门设计了一个全新的流形代数方法,它克服了在不规则数据结构上使用传统欧几里得运算的局限性,并在合成数据集和阿尔兹海默症数据集上验证我们方法的有效性和合理性。其次,作者提出了一种基于多网络约束高阶图匹配的基因-药物共表达模块识别算法。目前大量基因组学,化学和药理学数据的出现为我们研究药物基因组学提供了新的机遇和挑战。识别基因-药物关联关系不仅对全面了解药物作用的分子机制至关重要,而且对开发有效的患者治疗方法也很重要。然而,准确识别药物基因组学数据之间的复杂关联关系仍然具有挑战性。因此,作者提出了一种新颖的高阶图匹配框架捕获数据内在结构关系,融入先验知识调控网络增强所识别关系的可靠性,设计有效采样策略减低模型计算复杂度,最终准确识别基因-药物共表达模块。在合成和药物基因数据上对该方法进行了实验验证,证明该方法能够发现密切关联的基因-药物共表达模块。再次,作者提出了一种基于高阶图匹配的共有和特有mi RNA-基因调控模块识别算法。识别mi RNA和基因之间的调控模块在癌症研究中至关重要,它不仅促进了对癌症分子机制的全面了解,而且还促进了精准治疗的发展。但从受试者收集的基因组数据通常涉及不同的癌症状态,例如不同的TNM恶性肿瘤分期(TNM)或组织学分型。因此,迫切需要开发一种新颖的方法来联合分析不同癌症状态下的mi RNA和基因数据,以识别肿瘤发生的共有机制(共有模块)和亚型特有的调控机理(特有模块)。为此,作者开发了一种高阶图匹配模型,并融入变分差分正则化项提取癌症的共性特征,并保留不同癌症亚型特有的mi RNA-基因调控机制。在合成数据,胃腺癌和乳腺浸润癌数据实验中,证明该方法不仅能够提取不同亚型之间潜在的共有模块,还能够识别亚型特有的调控模块,揭示与亚型相关的重要生物功能。最后,作者提出了一种基于多网络约束多图匹配的多维调控模块识别算法。目前大量多维基因组学数据的积累为研究多层生物学调控关联关系提供了新的机会。从多组学数据中识别多维调控模块对于全面了解生物系统的调控机制至关重要。为此,作者开发了一种基于多网络约束的多图匹配框架,通过考虑多维组学数据内部和之间的关联关系(如网络内的交互作用和网络间循环一致性信息)来准确捕获高度相关的多维调控模块。该方法同时还采用了一种新颖的图平滑相似度测量方法降低噪声和缺失值污染的影响。在合成数据和宫颈癌数据的实验上,证明了该方法可以准确有效地识别在GO生物过程和KEGG通路中显著富集的多维调控模块,并且同一调控模块中不同水平的分子共同调控同一通路。综上所述,本文对网络分析方法及其疾病标志物识别问题进行了深入的研究。针对单网络分析问题,提出了一种基于流形学习的脑网络公共谐波识别算法;针对双网络分析问题,提出了一种基于多网络约束高阶图匹配的基因-药物共表达模块识别算法,同时,扩展该方法到mi RNA和基因数据中以期发现共有和特有mi RNA-基因调控模块;而对于多网络分析问题,提出了一种基于多网络约束多图匹配的多维调控模块识别算法。大量理论分析和实验结果证明,本文提出的一系列方法深入挖掘疾病标志物识别问题的本质,显著提升了算法的性能,并丰富了生物信息学领域对该问题的研究内容。
- 单位