摘要
从现有文献以及数据库中收集细菌素信息,结合数据库技术建立细菌素信息数据库。通过MOE软件和E-Dragon平台生成分子描述符。基于随机森林(Random forest, RF)和支持向量机(Support Vector Machine,SVM)建立细菌素发掘模型,其中,RF算法建立的细菌素发掘模型识别效果最好,准确率(Accuracy, Acc)为0.9187。基于随机森林和K最近邻(k-NearestNeighbor, kNN)算法建立细菌素类别判定模型,其中,KNN模型准确度最高,为0.9000。根据建立的模型预测出7种可能的细菌素,并判定它们多数为Class IIB类。
-
单位东北农业大学; 生命科学学院