摘要

构建了用于预测蛋白质序列中RNA-结合残基的分类模型.在模型的特征提取方面,除了与功能相关的结构特征和序列正交编码信息以外,还提出了一个新颖的特征PSSM-PP.该特征不仅包含蛋白质序列的进化保守特征,还包含与蛋白质和RNA结合有关的氨基酸理化特征.在设计模型时,考虑到样本数据量大的问题,选用了快速的随机森林算法.该预测模型总体预测准确率达到87.02%,特异性达到95.62%,敏感性达51.16%,Matthew相关系数为0.533 6.此外,还构建了RNA结合残基的预测平台.

  • 单位
    生物电子学国家重点实验室; 南京审计大学; 东南大学