摘要

目的:基于深度学习方法建立更加稳定、可靠、高实用性的化合物成药性预测模型。方法:通过Integrity, Chembl和DrugBank这3个数据库收集正、负样本数据,对正负样本大数据集进行数据清洗、解决数据不平衡问题之后,进一步对化合物的简化分子线性输入规范(SMILES)码进行标准化编码,在此基础上基于堆叠自编码神经网络算法(Stacked AutoEncoder, SAE)以及全连接神经网络算法(Fully Connected Neural Network, FCNN)构建并训练深度神经网络模型,对化合物进行特征提取,预测化合物的成药性。结果:模型最终稳定收敛,在验证集上准确率(ACC)和曲线下面积(AUC)分别达到0.995 3和0.992 7,较之前文献报道的基于机器学习的模型提高了约3%的预测精度。结论:基于大数据集和深度神经网络技术构建的化合物成药性预测模型具备一定的实用性,可以提高化合物成药性预测的精准度。