摘要
基于一系列作用于治疗乳腺癌重要靶标雌激素受体α亚型ERα的化合物,研究其分子结构和生物活性pIC50之间的关系,构建抗乳腺癌候选药物定量构效关系模型.模型采用集成学习方法KNN-Bagging,通过组合多个KNN弱预测模型得到一个强集成器,实现对生物活性pIC50的预测.基于集成学习的模型可决系数R2达到0.9496,均方根误差MSE达到0.0016,与传统多元线性回归,多元非线性回归相比,有统计学意义上的显著提升.说明定量构效关系模型在化合物分子描述符具有多种数据类型情况下,采用KNN-Bagging集成学习方法对治疗乳腺癌的重要靶标ERα的生物活性具有较好的预测能力,可为筛选拮抗ERα活性的化合物提供理论上的指导.
-
单位电子工程学院