摘要
以包含细胞核蛋白质磷酸化位点的肽段为对象,将文本向量化方法与机器分类算法相组合,开展了蛋白质磷酸化位点特征筛选和组合模型评价。结果表明:磷酸化位点下游第一个氨基酸及磷酸化位点氨基酸种类是两个重要特征。独热编码与支持向量机的组合模型综合效果最好,它在训练集上的准确率达91.6%,精准度达94.0%,召回率达89.2%。测试集上的结果表明:该模型也显示出了良好的泛化能力。本模型为亚细胞层面磷酸化调控的精细分析提供了有效方法。
-
单位金陵科技学院; 生命科学学院; 南京大学