摘要
本发明公开了一种基于多实例多类标的马尔可夫链注释蛋白质功能的方法,所述方法包括:从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能;计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为蛋白质之间的相似性度量;使用已注释功能的蛋白质数据学习马尔可夫链模型,并根据学习的模型注释未知功能的蛋白质。本发明使用多实例多类标学习框架中的计算方法注释蛋白质的功能,使用Hausdorff距离计算蛋白质之间的相似性,学习马尔可夫链模型计算蛋白质的类标概率分布,并根据概率分布注释未知功能的蛋白质。
- 单位