摘要

采用决策树(DT)模型及其衍生的随机森林(RF)模型、极端随机树(ET)模型和梯度提升树(GBDT)模型,对用于甲烷吸附的金属有机框架材料(MOFs)进行了高通量的计算筛选。利用1 800种材料的特征向量数据,计算了特征向量之间的相关性并进行重要度分析,发现材料的结构特征与化学信息特征的相关性不大,但是结构特征的重要度较高。将数据库中的1 260种材料作为训练集并使用上述4种机器学习模型进行训练,再将剩余的540种材料作为测试集对模型的筛选结果进行比较和评估。接收者操作特征(ROC)曲线和查准率-查全率(PR)曲线结果表明,GBDT模型自身稳定性强且预测结果精度高,因而成为筛选吸附甲烷的高性能金属有机框架材料的最佳模型。针对RF模型和GBDT模型进行参数优化,发现协调单个决策树的个数和决策树节点的分裂特征数量能够有效改善RF模型的性能,而调节回归树的学习速率和迭代次数可有效改善GBDT模型性能。最后基于540种材料的测试集,利用GBDT模型筛选出前20种高性能吸附材料,分析了它们的主要特征向量与甲烷吸附量之间的关系。

全文