摘要

近期,基因组、转录组和蛋白组学研究发现了成千上万个已翻译但未被注释的小开放读码框(smORFs)。这个发现填补了蛋白编码基因的空白。研究结果表明,许多smORFs翻译的小肽在代谢、细胞凋亡和发育过程中有着重要的作用。这些进展就提出一个问题,在全基因组范围内到底还有多少类似的smORFs及小肽具备功能?目前,尚未有生物手段能够在全基因组范围内进行研究小肽功能。本研究提出了一种基于高通量数据和复杂网络的全基因组范围小肽功能预测算法。算法利用小肽在多个组织中转录及翻译的表达向量,比较蛋白在相同组织中的表达情况,构建小肽与蛋白相关关系网。研究将表达相关关系和同源关系联合,构成复杂网络,然后采用基于模块(module)和基于中枢(hub)两种方法,提取典型的、有显著意义的功能子网,然后将子网的功能富集赋予子网中未知功能的小肽。该方法在三个320不同的仿真未知功能的蛋白节点集上进行测试,预测率为89.1%。最后,该方法应用在真实测序数据中,共鉴定出500多个有功能的功能小肽,文章将预测结果与现有的小肽功能报道做了比较,结果表明算法预测结果与实验验证结果基本一致。