摘要

获取化学品的生物积累性数据是评价其生态及健康风险的前提。基于机器学习算法的模型已被用于生物积累性预测,填补相关数据空缺。但已有预测模型仅针对单一终点,忽略了不同终点间的内在联系。基于多任务学习算法的模型,有望实现多个生物积累参数的同时预测。本研究采用反向传播(back-propagation, BP)神经网络机器学习算法,基于分子Dragon描述符和4种分子指纹,建立了可同时预测化学品鱼体生物富集因子(BCF)和生物放大因子(BMF)的多任务模型,并与单任务模型进行了比较。结果表明,多任务模型的拟合效果、稳健性和预测能力均优于单任务模型。采用Dragon描述符作为输入的多任务模型表现最好,其训练集的决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)分别为0.925~0.964、0.168~0.247和0.133;验证集的R2、RMSE和MAE分别为0.771~0.894、0.176~0.213和0.168~0.176;10折交叉验证系数(Qcv2)为0.785~0.867。基于验证集与训练集分子间的谷本相似度表征了模型应用域。本研究所建模型可有效填补化学品生物积累性数据,为化学品生物积累性及风险评价提供技术支持。