摘要
外膜蛋白(Outer Membrane Proteins,OMPs)是一类具有重要生物功能的蛋白质,通过生物信息学方法来预测OMPs能够为预测OMPs的二级和三级结构以及在基因组发现新的OMPs提供帮助。文中提出计算蛋白质序列的氨基酸含量特征、二肽含量特征和加权多阶氨基酸残基指数相关系数特征,将三类特征组合,采用支持向量机(Support Vector Machine,SVM)算法来识别OMPs。计算了包括四种残基指数的多种组合特征的识别结果,并且讨论了相关系数的阶次和权值对预测性能的影响。在数据集上的十倍交叉验证测试和独立性测试结果显示,组合特征识别方法对OMPs和非OMPs的识别精度最高分别达到96.96%和97.33%,优于现有的多种方法。在五种细菌基因组内识别OMPs的结果显示,组合特征方法具有很高的特异性,并且对PDB数据库中已知结构的OMPs识别准确度超过99%。表明该方法能够作为基因组内筛选OMPs的有效工具。
-
单位自动化学院; 国防科技大学