摘要

蛋白质二级结构预测是蛋白质组计划中的一个重要组成部分,为提高蛋白质二级结构的预测准确率,同时减小训练规模,提出了一种基于自注意力生成对抗网络(Self-Attention generative adversarial network,SA-GAN)的深度学习模型。该模型利用生成对抗网络(generative adversarial network,GAN)提取隐式特征,其次将提取的特征结果与蛋白质序列的位置特异性矩阵(position specific scoring matrix,PSSM)结合作为网络的输入,其中,自注意力模块与卷积增强的GAN共同作用,得到预测结果。在测试数据集CASP10,CASP11,CASP12,CASP13,CASP14和CB513上分别获得了83.93%,83.61%,84.13%,84.86%,84.02%和83.37%的Q3准确率。实验结果表明,SA-GAN模型对于提取生物序列特征、获取长程依赖全局信息和提高蛋白质二级结构预测准确率的作用十分显著,具有较强的表达能力和竞争力。