摘要

迈入大数据时代的石油工业,需要充分挖掘石油工业大数据的巨大潜在价值。虽然数据挖掘已经在许多行业取得了丰硕的成果,但在油气勘探开发领域的应用还处于初始阶段,这主要由于油气勘探开发的数据及其应用具有自己的特殊性。数据挖掘常用的算法可分为回归、分类、聚类、估计、预测、关联分析等。其中的回归、分类是最成熟、应用最多的算法。但是对于具体的研究对象、不同的研究问题和数据源,不同的回归和分类算法又具有各自的适用性,因此需要针对具体问题优选适合该数据集的算法。以塔河油田的试油数据为例,以地层系数和油层分类为分析挖掘对象,详细解析了常用回归、分类算法的适用性。研究发现,对于常见的石油行业数据和研究对象:(1)最优的回归算法是反向传播神经网络(BPNN),其次为支持向量机回归(R-SVM)和多元回归分析(MRA);(2)最优的分类算法是支持向量机分类(C-SVM),其次为贝叶斯逐步判别(BAYSD);(3)MRA和BAYSD可以用于数据降维,BAYSD的降维效果更好;(4)R型聚类分析(RCA)可以用于数据降维,Q型聚类分析(QCA)可以用于样本约简;(5)在做具体的数据挖掘应用研究时一定要针对具体数据集对所用算法进行优选。

  • 单位
    中国石油勘探开发研究院