摘要

通过对蛋白质有序-无序区域分析,找到表示氨基酸的34维特征.其中,样本熵是用于计算时间序列复杂度的参数,通过比较20种氨基酸在两种区域的出现频率,将其对应为0-9的时间序列,从而计算蛋白质的复杂度.另外,使用长度为35的滑动窗口将相邻氨基酸联系起来,提高了预测准确度.最后,使用粒子群算法优化BP神经网络的节点参数,训练并实现有序-无序分类的5个网络,取均值后转化为有序-无序输出.使用DisProt数据集和R80数据集分别进行十折交叉验证,预测准确率分别达76%和87%以上.