摘要
为提高药物研发的效率,通常使用定量构效关系(QSAR)模型来预测化合物的生物活性,从而进行筛选和优化。目前,基于统计分析的QSAR随着变量急剧增多变得束手无策,同时预测精度还有提高的空间。基于此,本文提出了一种基于改进的PCA算法对变量进行降维,并利用改进的麻雀搜索算法优化BP神经网络(ISSA-BPNN),以此提高预测的精度。改进的PCA算法先基于Pearson、最大互信息系数(MIC)和随机森林(RF)的加权得分得到主要特征变量,再用PCA算法对原特征进行降维得到主要输入变量;ISSA-BPNN算法优化BPNN的权值和阈值,达到输出稳定和保证全局收敛。以乳腺癌治疗时,化合物对ERα的生物活性数据为例进行了训练和预测。结果表明:本文所提算法预测精度更高,为药物研发提供了一种有效方法。
-
单位浙江理工大学; 浙江传媒学院