摘要

为了找出油水井生产数据中油压、套压、动液面、含水率、关井原因、生产天数等生产指标对产油量的影响;分析各个生产指标之间的相关性。利用决策树、随机森林和梯度提升回归树对月产油量进行预测,对三种算法利用特征重要性方法算出影响产油量的生产指标主控因素。利用皮尔森相关系数和主成分分析(PCA)算法对主控因素进行验证与分析。预测结果为随机森林算法和梯度提升回归树算法优于决策树;特征重要性分析出含水率、生产天数与动液面为产油量的主控因素,皮尔森相关系数验证出含水率与产油量高度相关,生产天数与产油量中度相关;PCA算法分析出含水率与生产天数为主要特征,油压、套压等指标之间也存在相关性。最后推荐用随机森林或者梯度提升树用于预测产量,用随机森林算法给出特征重要性,配合皮尔森相关系数和PCA验证分析结果。

  • 单位
    中国石油勘探开发研究院