摘要
蛋白质功能的准确预测有利于推进生物医学发展,高通量测序技术的快速发展加快了蛋白质序列的提取速度,从而产生了大量未注释的蛋白质,并且新测序序列缺乏结构等生物信息,针对该问题提出了基于序列和组合图卷积网络的蛋白质功能预测模型(Protein Function Prediction using Sequences and Combined Graph Convolutional Networks, PFP-SCGCN).首先通过深度学习方法捕获蛋白质序列的多维特征信息,再通过多序列比对从蛋白质序列中提取进化耦合信息和氨基酸残基群落,然后利用进化耦合信息和氨基酸残基群落生成序列氨基酸之间两种不同连接程度的邻接矩阵,将这两种邻接矩阵与序列特征信息一起输入给组合图卷积网络进行信息融合,最后通过多个全连接层获得蛋白质功能类别信息.本文还通过分析PFP-SCGCN的特定网络层识别蛋白质功能位点,可帮助人们推测出新序列中的重要氨基酸.模型结果表明,PFP-SCGCN模型的功能预测准确率远高于对比方法,具有较好的鲁棒性,并且可以较准确的识别功能位点.
- 单位