摘要
蛋白质亚细胞位置预测研究是目前蛋白质组学和生物信息学研究的重点问题之一。蛋白质的亚细胞定位决定了它的生物学功能,故研究亚细胞定位对了解蛋白质功能非常重要。由于蛋白质结构的序列性,考虑使用序列模型来进行亚细胞定位研究。尝试使用卷积神经网络(convolutional neural network,CNN)、长短期记忆神经网络(long short-term memory,LSTM)两种模型挖掘氨基酸序列所包含的信息,从而进行亚细胞定位的预测。随后构建了基于卷积的长短期记忆网络(Convolutional-LSTM)的集成模型进行亚细胞定位。首先通过卷积神经网络对蛋白质数据进行特征抽取,随后进行特征组合,并将其送入长短期记忆神经网络进行特征表征学习,得到亚细胞定位结果。使用该模型能达到0.816 5的分类准确率,比传统方法有明显提升。
- 单位