摘要

地学共享数据库(如GEOROC、PetDB等)可为地球科学研究提供重要基础数据。然而,这些数据库均存在一个明显缺陷:样品的9种主量元素(SiO2、TiO2、Al2O3、CaO、MgO、MnO、K2O、Na2O和P2O5)均有准确数据,但稀土元素(rare earth elements,REE)数据大量缺失。鉴于REE在地球化学领域的重要作用,我们尝试为数据库缺失的REE值提供一个补全方案,即利用机器学习中的随机森林方法实现由9种主量元素预测REE值。以洋岛玄武岩(ocean island basalt,OIB)为例,把从GEOROC库中搜集到的1 283组OIB数据按8∶2的比例分为两组,其中80%的数据作为训练数据集用于建模,20%的数据作为测试数据集验证模型。比较了随机森林和多元线性回归方法对相同数据进行建模和预测的效果差异,发现无论是回归建模还是预测,随机森林方法都优于多元线性回归,且随着输入参数与输出参数之间关系的复杂化,这种优势更加明显。随机森林对测试数据集的预测效果整体较好,只是随着REE原子序数的增大,预测效果逐渐减弱。这一方面可能是因为原子序数大的REE与主量元素的关系更弱;另一方面可能是由于原子序数大的REE与主量元素的关系更加复杂。其次,随机森林方法预测的REE配分曲线与实际配分曲线吻合度较高,且预测所得配分曲线的区分能力较强,能够反映实际配分曲线之间的相对差异,这一点对推断地球化学过程尤为重要。随机森林方法随着训练数据的增多,其建立的模型也将越稳定,预测结果也会更精确。因此,随着数据库的不断完善,对数据库中REE值的预测也将更为可信、可行。

全文