摘要

为了快速检测油页岩总有机碳(TOC)含量,以松辽盆地某区块所取岩芯为研究对象,测量230个岩石样本的TOC含量和近红外光谱数据。利用蒙特卡洛法剔除异常样本14个,剩余的216个样本进行去趋势加基线校正方法预处理,采用连续投影算法(SPA)、无信息变量消除算法以及竞争自适应算法选取特征波长。使用SPXY方法对样本按照2∶1的比例划分为144个校正集和72个验证集,然后建立线性的偏最小二乘(PLS)模型以及非线性的支持向量机(SVM)模型和随机森林(RF)模型对油页岩TOC含量进行预测。采用测定系数(R2)和均方根误差(RMSE)作为模型的评价指标,探究不同特征波长选择方法对油页岩总有机碳建模的影响,比较不同建模方法对油页岩TOC含量预测的准确度。结果表明,特征波长提取能够起到优化模型的作用。SPA, UVE和CARS分别提取了16, 253和65个波长,经过特征波长提取后模型测定系数均有提高,均方根误差均有下降,这说明进行特征波长优选对于简化模型、提高模型运算速度发挥着很重要的作用。此外,非线性的RF和SVM模型性能要优于线性模型PLS。这是因为油页岩中的碳存在于各类烃的中,不同类别含烃基团的吸收峰之间相互影响,使得油页岩总有机碳含量和近红外光谱数据之间存在着复杂的非线性关系,因此,非线性的SVM和RF模型能够表现出更好的效果。相比于其他模型,CARS-SVM模型验证集的测定系数(R■)和均方根误差(RMSEV)表现出的结果较好,分别达到了0.906 6和0.222 0,该模型能够用于油页岩总有机碳含量的快速检测。研究结果说明,近红外光谱分析应用于油页岩TOC含量快速检测是可行的;建立的CARS-SVM模型能够表现出较好的预测效果,为我国油页岩TOC含量快速检测提供了一种新的方法和思路。