摘要
提出了一种新的蛋白质折叠识别方法-BAG-fold模型。首先,通过伪位置特异性得分矩阵(pseudo position specific score matrix, PsePSSM)方法,二级结构(secondary structure, SS)方法,分组重量编码(encoding based on grouped weight, EBGW)方法和去趋势互相关分析(detrended cross-correlation analysis, DCCA)方法,共4种方法提取蛋白质序列的特征信息,并由4种特征信息得到混合特征空间。其次,采用局部Fisher判别分析(linear Fisher discriminant analysis, LFDA)减少冗余信息以选取最优特征子集。最后,将最优特征子集输入到Bagging集成分类器中进行蛋白质折叠识别。使用10折交叉验证在DD数据集和RDD数据集的精度分别达到了96.8%和98.8%。实验结果表明,提出的BAG-fold方法明显优于其它预测方法。
-
单位数理学院; 青岛科技大学