摘要

基于位点特异性打分矩阵(Position-SpecificScoringMatrices,PSSM)的预测模型已经取得了良好的效果,基于PSSM的各种优化方法也在不断的发展.本文采用PSSM将启动子序列处理成数值矩阵,通过卷积神经网络(ConvolutionalNeuralNetworks,CNN)算法进行分类. E.coli K-12(Escherichiacoli K-12,大肠杆菌 K-12,下文简称大肠杆菌)的Sigma38,Sigma54和Sigma70三种启动子序列被作为正集,Coding区和Non-coding区的序列为负集.在预测大肠杆菌启动子的二分类中,准确率达到0.99,启动子预测的成功率接近100%;在对Sigma38、Sigma54、Sigma70三种启动子的三分类中,预测准确率为0.98,并且针对每一种序列的预测准确率均可以达到0.98以上;最后,本文以Sigma38、Sigma54、Sigma70三种启动子分别和Coding区或者Non-coding区序列做四分类,预测得到的准确性为0.98,对三种Sigma启动子均衡样本的十交叉检验预测精度均可以达到0.95以上,海明距离为0.016,kappa系数为0.97.