温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
机器
学习
模型
融合
区块
油井
效果
预测
技术
蒋文超
大庆石油地质与开发 Petroleum Geology Oilfield Development in Daqing2023 年 2 月 第 42 卷第 1 期Feb.,2023Vol.42 No.1DOI:10.19597/J.ISSN.1000-3754.202109045基于机器学习与模型融合的大庆油田SN区块油井压裂效果预测技术蒋文超1,2(1.国家能源陆相砂岩老油田持续开采研发中心,黑龙江 大庆163712;2.中国石油大庆油田有限责任公司勘探开发研究院,黑龙江 大庆163712)摘要:针对大庆油田油井压裂效果预测方法不确定性大、精度低的问题,利用机器学习与模型融合技术建立了油井压裂效果预测模型。采用统计学方法对SN区块油井压裂效果与地质、工程、生产参数的相关性进行了分析,借助基于LightGBM模型的封装法分析了油井压裂效果影响因素的重要程度,并进行了特征选择;采用支持向量机、神经网络、随机森林和LightGBM4种算法对油井压裂效果进行了预测。在此基础上,利用算术平均、加权平均、堆叠3种方法对4个算法进行融合,得到了精度更高的预测模型,并应用该预测模型对SN区块水力压裂方案进行了设计与优化。结果表明:神经网络建立的模型比其他3种算法精度更高,模型决定系数R2为0.603;融合后的模型预测精度高于每个算法的精度,其中堆叠法效果最好,其R2高达0.899。该数据驱动建模技术具有较强的易用性和可移植性,对压裂方案设计具有一定指导意义。关键词:大庆油田;水力压裂;统计分析;机器学习;模型融合中图分类号:TE357 文献标识码:A 文章编号:1000-3754(2023)01-0064-09Prediction model for production well hydraulic fracturing effect of Block SN in Daqing Oilfield based on machine learning and model ensembleJIANG Wenchao1,2(1.R&D Center of Sustainable Development of Continental Sandstone Mature Oilfield,Daqing 163712,China;2.Exploration and Development Research Institute of PetroChina Daqing Oilfield Co Ltd,Daqing 163712,China)Abstract:Aiming at the problem of much uncertainty and low accuracy in prediction of production well hydraulic fracturing in Daqing Oilfield,machine learning and model ensemble are used to establish a prediction model of production well hydraulic fracturing for Block SN.Statistical methods are used to analyze correlation of production well hydraulic fracturing with geological parameters,engineering parameters and production parameters.Wrapper method based on LightGBM is used to identify the factors influencing production well hydraulic fracturing effect,and features selection is carried out.Prediction of production well hydraulic fracturing is performed by using support vector machine,neural network,random forest and LightGBM.On this basis,arithmetical mean,weighting mean and stacking methods are used to ensemble the 4 algorithms to obtain prediction model with higher accuracy which is used in designing and optimization of hydraulic fracturing plan for Block SN.The results show that the model estab收稿日期:2021-09-17 改回日期:2022-04-12基金项目:国家科技重大专项“大庆长垣特高含水油田提高采收率示范工程”(2016ZX05054)。作者简介:蒋文超,男,1989年生,硕士,工程师,从事提高原油采收率与人工智能技术研究。E-mail:第 42 卷 第 1 期蒋文超:基于机器学习与模型融合的大庆油田SN区块油井压裂效果预测技术lished by neural network has higher accuracy than other 3 algorithms,with determination coefficient R2=0.603.The ensemble model has higher prediction accuracy than each model,among which stacking method is most accurate with R2=0.899.This data-driven modeling technique has high usability and portability providing guidance for fracturing design.Key words:Daqing Oilfield;hydraulic fracturing;statistical analysis;machine learning;model ensemble0引言大庆油田开发已经超过了60 年,其中压裂是一项重要的增产与提高采收率的手段16。由于水力压裂的成本整体较高,压裂效果不但影响了油井产量,而且决定了压裂投资是否能够产生预期的效益。因此,建立一个精度较高的预测模型对压裂效果进行精确判断对于大庆油田开发具有非常重要的意义。目前,很多学者将机器学习方法应用于油田开发中715,特别是用来评估完井和增产措施16。油井压裂效果预测实际上就是评估地质、生产和压裂工程等因素对于压裂后产量的重要性。目前对于压裂效果的研究很少在模型中考虑地质特征17,或者假设储层是均质的;有学者利用油井位置坐标来代替地质特征,但这需要油层在所研究的区域范围内有很强的趋势性变化18。部分研究在建立模型时,还存在参与训练与测试数据量少的问题19。另外,国内外大部分基于数据建模的压裂井研究都是针对致密油、页岩气与页岩油等10,1925 非常规油气藏的新钻水平井压裂进行评价,而大庆油田的压裂很多都是针对正在开发的油井开展,需要考虑生产前的动态指标,将这类生产动态指标考虑在模型中的报道文献较少。目前,大庆油田对油井水力压裂效果的预测大多数是依靠油藏工程师对压裂相关参数的人工分析和经验,存在着不确定性大、预测精度低的问题。本文通过数据统计分析、机器学习和模型融合技术对大庆油田SN区块的油井压裂情况进行了数据挖掘,建立了精度较高的预测模型,并应用该模型对SN区块进行了压裂方案辅助决策。1模型基础信息1.1区块概况本文数据来自大庆油田 SN 区块。该区块发育萨尔图、葡萄花和高台子 3个油层,共分 8个油层组、35 个砂岩组。萨、萨及葡油层砂岩厚度分别为 30.7、16.7、24.3 m。这些油层的沉积环境为河流三角洲,属于碎屑岩储层,根据密闭取心资料统计结果,油层的储集空间以原生孔隙粒间孔为主,孔隙间大部分连通。平均渗透率为913.110-3m2,平均孔隙度为27.3%;岩性以细砂岩、粉砂岩为主,细砂岩质量分数为 42.4%,粉砂岩质量分数为 33.8%,粒径中值为 0.124 mm,分选系数为4.15。葡和高台子油层均为三角洲外前缘亚相沉积,砂体厚度较小,油层物性较差,由北向南油层数减少、厚度变薄。该区块所有开发井都处于5点法面积井网中。1.2数据来源本文从措施数据库中提取了压裂相关数据,删除缺失数据后共888井次。数据集中的特征可以分为3类:地质信息、压裂前生产信息和压裂工程信息。地质信息中包含了压裂井的井位坐标、压裂目的层深度、砂岩厚度、孔隙度、渗透率、沉积相类型和破裂压力。其中,孔隙度和渗透率采用厚度加权平均法计算得到,沉积相采用目的层位累计厚度最大的沉积相。另外,压裂前生产信息能代表压裂前油井的生产能力,对压裂后的产油量有很大影响。模型中考虑的参数包括压裂前的日产油量、日产液量、含水率以及沉没度。压裂工程信息也会对压裂结果作出一定贡献。在模型中,该类信息包含加砂量、压裂液体积、混砂比、压裂液类型、裂缝条数和压裂方式。加砂量和压裂液体积能够在一定程度上描述裂缝的大小,这会在一定程度上影响着压裂增产效果。不同的压裂方式(如选择性压裂、限流法压裂等)由于压裂工艺不同,也会造成压裂效果的差异。本文研究采取的目标变量是油井压裂后稳定的日产油量。2研究方法2.1特征工程2.1.1数据预处理为了保证样本具有代表性,删除有缺失值样652023 年大庆石油地质与开发本。另外,为了消除特征间单位差异的影响,以便每个特征被同等对待,对特征集的数据进行了标准化,使得每维特征的平均值为 0,标准差为 1,计算公式为:zi=xi-(1)=1ni=1nxi(2)=1ni=1n(xi-)2(3)式中:zi第 i个样本标准化后的数值;xi第i 个样本标准化前的数值;所有样本的平均值;所有样本的标准差;n样本的数量。对于数据集,按照 75%和 25%的比例将整个数据集随机地划分为训练集和测试集。训练集用来训练和优化各个算法的模型,而测试集则用来评价模型的精确度。为了保证评价的公正性,测试集在整个过程中不参与任何模型的训练,仅用于模型性能的评估。2.1.2特征重要性评估及特征选择特征重要性评估能够帮助理解数据的特点,成功的特征选择更能够提升模型的性能,使模型泛化能力更强,减少过拟合。本文采用基于 LightGBM模型26的封装法进行特征重要程度计算与特征选择,其中,特征重要程度通过特征分裂后的增益大小来衡量。为了特征重要性结果的稳定,本文采用7折交叉训练的方式计算。按照计算获得的特征重要性程度由大到小,向模型中逐个加入特征,得到特征数量与模型精度和稳定性的关系。最终,优选能够使模型的平均得分高且得分标准差低的特征集作为预测模型的输入变量。2.2机器学习模型的建立与调优2.2.1模型的训练与优化为了评价超参数能够使模型达到的精度,进而选择得到最佳超参数组合,采取7折交叉验证方式对给定范围的超参数进行优化,具体操作:将训练集随机分成 7 个子集,每个子集包含 10%的训练集。每次不重复地取一个子集作为交叉验证集来评估当前模型得分,而训练集中剩余数据则用来训练模型。通过这种方式,可以获得7个模型,用这些模型验证误差的平均值来评估超参数组合性能。对于所有超参数组合都采用这种 7 折交叉验证的方式,通过对比平均测试误差来获得最优超参数组合。最后,利用最优超参数组合在整个训练集上进行 训 练,再 用 测 试 集 评 估 该 算 法 的 最 高 精度(图1)。2.2.2机器学习算法目前,支持向量机27、神经网络28和集成学习是机器学习算法