摘要
本文建立了一种随机森林(Random forest,RF)结合定量构效关系(Quantitative structure-activity relationship,QSAR)的多环芳烃(Polycyclic aromatic hydrocarbons,PAHS)对大鼠的急性毒性预测方法。首先,使用Edragon计算80种PAHS的分子描述符,并基于归一化方法对分子描述符进行预处理以消除量级之间的差异。然后,提出了一种基于连续投影算法(Successive projections algorithm,SPA)结合变量重要性测量(Variable importance measurement,VIM)的混合变量选择方法对分子描述符进行筛选,并基于筛选出的分子描述符构建RF模型对PAHS急性毒性进行预测;最后,将获得的结果与RF和VIM-RF模型进行对比。结果表明,SPA-VIMRF模型具有更好的预测性能,最优的校正集和预测集决定系数(Coefficient of determination,R2)分别为0.9673和0.7456;均方根误差(Root mean square error,RMSE)分别为0.1162和0.2424;平均相对误差(Mean relative error,MRE)分别为0.0440和0.0881。以上研究说明,随机森林结合定量构效关系具有分析速度快、预测准确度高等优势,该研究为PAHS的急性毒性预测提供了一种可行方法。
-
单位化学化工学院; 西安石油大学