摘要

【目的】针对常规数据处理导致分类预测精度不高等问题,提出Optuna-MLP-LightGBM组合模型用于抗癌候选药物的性质分类预测。【方法】对收集的1974种化合物(每个化合物各729个分子描述符),首先利用多层感知机(MLP)对高维数据进行聚合处理,再采用跳转连接实现数据的宽度处理,即将输出数据与输入数据合并组成宽度数据集,以此提高数据的特征识别,同时避免有用信息的缺失从而提高信息的流通;然后,用LightGBM替换MLP神经网络中的分类层,可以更好的进行分类处理以及避免过拟合问题,最后构建基于Optuna优化的MLP-LightGBM分类预测模型,用于候选药物的小肠上皮细胞渗透性(Caco-2)的分类预测。【结果】模型AAccuracy、AUC和FF1值分别达到91.03%、97.31%和90.48%,由消融实验可以发现,通过MLP-LightGBM实现数据宽度处理以及分类后,模型分类效果相比MLP模型得到提升,三种指标分别提升了0.51%、1.22%和0.7%;与逻辑回归(LR)、Attentive FP、MLP等传统模型相比该模型能更好整合数据信息,其中与基模型相比平均增长幅度分别达到5.94%、5.65%和6.56%。【结论】由于跳接处理使MLP网络可以达到特征的有效提取和扩充数据集的目的,同时引入机器学习可以更好的提高分类精度,因此在药物高通量筛选中可以成为重要的辅助工具。