摘要
使用基于有监督机器学习分类器的岩性预测方法时,如果样本集中目标岩性样本过少,而非目标岩性样本过多,在这种不平衡样本集上训练分类器会使预测结果向非目标岩性偏倚,导致目标岩性的预测准确率较低。为了解决这一问题,提出一种针对不平衡样本集的随机森林岩性预测方法。首先,以录井岩性数据作为岩性样本标签,以井旁道地震属性和岩石弹性参数作为岩性样本特征构建岩性样本集;其次,将近邻清除算法(NM)与合成少数类过采样算法(SMOTE)相结合形成NM-SMOTE算法,对岩性样本集进行平衡化;然后,用平衡化的岩性样本集训练随机森林分类器,建立多种地震属性、弹性参数与岩性之间的非线性关系;最后,将目标探区的地震属性和弹性参数输入随机森林分类器,随机森林分类器将依据训练时得到的地震属性、弹性参数与岩性的非线性关系预测岩性。实际数据测试结果表明:训练样本集中过多的非目标岩性样本会对随机森林分类器的预测效果带来负面影响,岩性预测准确率仅为38%;使用NM-SMOTE算法对训练样本集进行平衡化后,岩性预测准确率提高至83%,获得的岩性数据体与地震资料吻合程度更高。
-
单位中国石化石油勘探开发研究院; 中国科学技术大学; 中国石油大学(华东)