针对ERα生物活性的检测速度慢且需耗费大量人力物力的问题,本文提出了基于随机森林的ERα生物活性预测模型。首先,对ERα生物活性数据集进行数据清洗,使用3σ准则去除异常值。其次,利用随机森林重要变量重要度筛选出前20个对生物活性影响大的变量。随后,基于随机森林对筛选出的变量进行ERα生物活性预测。结果表明,所建立的模型的均方误差为0.017,具有良好的预测性能。