摘要
在蛋白质组学中从头测序是串联质谱肽段测序的重要方法之一,其具有不依赖于蛋白质数据库的优势,并在测定未知物种蛋白序列、单克隆抗体测序等领域中起着关键作用。然而由于从头测序的复杂性,导致其测序的准确率远低于数据库搜索方法,制约了从头测序的广泛应用。针对从头测序准确率低的问题,提出一种基于图卷积神经网络(GCN)的从头测序方法 denovo-GCN。该方法将质谱中谱峰之间的关系用图结构表示,并从每个相应的肽碎裂位点提取谱峰特征,然后通过GCN预测当前碎裂位点处的氨基酸类型,最后逐步组成完整的肽序列。通过实验确定了GCN模型的层数、离子类型组合和测序使用的谱峰数量这3个影响模型的重要参数,并将多个物种数据集用于实验对比。实验结果表明,该方法在肽水平上的召回率比基于图论的从头测序方法 Novor、p Novo提高了4.0~21.1个百分点,比基于卷积神经网络(CNN)和长短期记忆(LSTM)网络的Deep Novo提高了2.1~10.7个百分点。
- 单位