分享
基于多模型融合Stacking集成学习的油田产量预测_张庭婷.pdf
下载文档

ID:2251470

大小:714.24KB

页数:9页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 模型 融合 Stacking 集成 学习 油田 产量 预测 张庭婷
第 卷第期 年月 科技和产业 ,基于多模型融合 集成学习的油田产量预测张庭婷,潘美琪,朱天怡,曹煜,张站权,刘单珂,贺兴,于立军(上海交通大学 碳中和发展研究院,上海 ;上海交通大学 智慧能源创新学院,上海 ;上海交通大学 电子信息与电气工程学院,上海 )摘要:基于机器学习前沿理论,提出一种基于多模型融合 集成学习方式的组合预测方法,以国内某特高含水油田区块中多口水驱产油井历年生产历史数据为试验样本,预测其动态产油量。依据不同算法的训练原理,选取极限梯度提升树算法、长短记忆网络()、时域卷积网络()等作为模型的基学习器,采用多元线性回归作为模型的元学习器。结果表明:融合后的 模型充分发挥了各基学习器的优势,相比单一模型,融合后的 模型预测平均误差较小,预测鲁棒性较好。该模型的提出对融合模型在特高含水油藏开发方面具有重要的应用意义。关键词:多模型融合;集成学习;极限梯度提升树;长短期记忆网络;时域卷积网络;产量预测中图分类号:;文献标志码:文章编号:()收稿日期:基金项目:中国石油化工股份有限公司科技重大专项()。作者简介:张庭婷(),女,重庆人,上海交通大学碳中和发展研究院,助理研究员,博士,研究方向为能源系统建模与大数据分析;通信作者于立军(),男,吉林吉林人,上海交通大学智慧能源创新学院,院长助理,教授,博士,研究方向为能源大数据应用与风光发电智慧运维。油田开发指标的科学可靠预测是评价油田开发条件、编制油田开发计划、设计油田开发方案的基础和依据。油藏开发过程中,当油藏含水超过 时,通常认为它处于特高含水期。相较中低含水油藏的开发,特高含水油藏阶段的显著特征主要表现在采油速度低、剩余油过于分散、措施效果变差、井况恶化、开发经济效益下降等方面。目前中国大多数油田已进入高特高含水期,这给油田的高效开发提出了更高的要求,亟须科学可靠的开发指标预测(如产量预测等)来支撑油田的开发。在对油田产量进行预测时,常规的方法是依据各种曲线理论,如递减曲线、增长曲线和水区曲线等,但特高含水期利用水驱特征曲线等传统方法来预测产量时,常带来水驱特征曲线上翘的问题,使得预测误差增大。并且,进入特高含水期的油田,地层物性变化多样,开发情况复杂,原始数据获取困难,加上数据的残缺性和波动性,容易造成原有产量预测模型的结果与该阶段的真实生产状况偏离较大。同时,传统的油藏数值模拟等方法花费高、时效性差。因此,对油藏开发工作而言,迫切需要开发出既能提高工作效率、又能提高预测精度的预测方法。近些年,随着人工智能技术的发展,石油工业的智能化得以快速发展,以机器学习为代表的人工智能技术贯穿于石油工业的上下游全产业链,显著提高了油气全产业链的效率和效益。在油气开发和生产中,机器学习被广泛应用于动态分析、生产指标预测、开发方案智能决策与优化及开发实验数据挖掘与应用等问题。针对特高含水期油田产量预测,国内外学者都进行了大量的研究,使用的网络从 神经网络拓展到结构相对复杂、层数较深的网络 。常被用于油田产量预测的机器算法有支持向量机()、自回归()、人工 神 经 网 络()和 长 短 期 记 忆 网 络()等,研究的重点包括数据预处理、特征选择和学习器的选择 等。研究表明,学习器的选择会对预测结果产生很大影响,学习器选择不当会导致训练速度慢、预测精度低、拟合度过高等问题。文献 认为 在油气生产率时间序列预测中优于 。此外,数据信息的多少也会影响预测结果,输入数据里涵盖不同的有用信息,其预测精度也往往不同。在对油田产量进行预测时,若仅凭预测误差的高低来舍弃误差较大的方法,往往会造成信息的丢失,从而降低预测的可靠性。基于多种方法综合集成的组合预测方法可有效解决这类问题。组合预测方法的本质是综合多个“好而不一样”的预测模型的有用信息,构成一个新的预测模型,旨在降低方差,提高指标的整体预测精度。平均法、投票法和学习法()是种常见的集成学 习 结 合 策 略。其 中,采 用 多 折 交 叉 验 证 的 是相对更为稳健的一种模型融合策略。近两年,基于 集成的模型融合预测被用于电力负荷预测 、交通流量预测、火灾预测、图像识别 等领域,取得了较好的效果。在石油开发领域,也出现了一些 模型的应用探索。文献 在综合 、等集成方法优缺点的基础上,提出一种名为 的融合模型并 将 其 应 用 于 提 高 油 气 采 收 率,该 模 型 在 个样本数据集上实现了 的测试精度。特高含水油田开发系统错综复杂。在构建针对特高含水油田的动态产量预测模型时,需要在剖析常规多种预测方法的基础上,发展适合特高含水油田区块里不同产油井的组合预测方法,从而指导油田高效生产开发。本文将典型的和前沿的机 器 学 习 算 法 极 限 梯 度 提 升 树()、时域卷积网络()等与集成学习方式进行融合,构建基于 的组合预测方法,用于预测油田区块多个差异化油井的动态产量。首先对 集成学习的理论框架以及各种算法的训练机理进行介绍;其次,考虑多口产油井的数据观测,建立 框架下的多模型融合油田产量预测模型;最后,通过多口油井的产量预测验证算法的有效性。算法理论介绍 模型框架图所示为 集成学习的算法框架结构。它首先将原始数据集按照一定的规则进行划分,划分后的若干子集输入到第层预测模型中通过各基学习器进行训练,得到的预测结果为第层 模 型的 输 出。然 后 将 该 预 测 结 果 输 入 到第层模型,并利用该层的元学习器模型进行训练,得到最终的预测结果。在训练基学习器时,需要使用交叉验证法,再在众多基学习器求出的预测结果基础上训练元学习器。集成学习方式可解决单个模型容易陷入欠拟合或过拟合的困境,得到泛化性能优良的学习器,从而改善模型的整体预测精度。图 集成学习算法框架结构训练 模型时,主要包括个步骤:)数 据 集 划 分 与 学 习 器 确 定。对 于 数 据 集(,),代表样本的特征向量,为样本对应的预测值。借助随机采样的方式,将样本数据集划分为训练集和测试集,同时确定基学习器的个数为和元学习器的个数为。)进行折交叉运算。将训练集划分成个大小相似的集合,其中,为折交叉验证中的训练集,则为测试集。在第层预测模型中,对采用基学习器算法进行训练,得到基模型,。对中的每个样本,用 来表示基学习器对它的预测。样本对应的预测值和各基学习器预测得到的新结果 一同构成新样本,即 (,),新生成的 将被用于训练元学习器。)元学习器训练。通过第层预测模型对新生成的 进行训练得到,利用个基学习器产生的个测试指标集对元学习器进行检验和判断评价。科技和产业 第 卷第期 融合方式的最大特征在于充分考虑第层算法的特征,并通过第层的结合策略发现第层模型中各类算法的预测误差并及时纠正,从而可对模型的整体预测精度进行改善。算法原理 极限梯度提升树模型极限梯度提升树()是从传统梯度提升决策树改进和扩展而得到的集成树模型。它的主要特色在于:不但可使用分类与回归树(),也能使用线性基础模型;可自定义损失函数,增加了模型构建的灵活性;在损失函数中加入了一个正则项,有助于模型泛化并防止模型过拟合;使用损失函数的二阶偏导数,可提供有关梯度方向的更多信息。与 类似,本质为加法模型,即是在每一步迭代中只优化当前步中的子模型,其目标函数为 (),()()(),()()式中:()为第步的子模型;()为当前步的子模型;()为训练完已经固定了的前个子模型;()表 示子模 型的 复 杂 度;()为正则项,表示所有子模型复杂度之和。运用二阶泰勒展开来可将 的损失函数近似表达,即()()()()()()将式()中的()视作,()视作,(?,)视作?的函数,可得 (),()()()()()()由于前个子模型已确定,故上式中除了()外都是常数,因此,目标函数可转为 ()()()()式中:(),表示第轮损失函数对于第个样本的一阶偏导;(),表示第轮损失函数对于第个样本的二阶偏导;代表损失函数,用来表征一次预测的好坏,损失函数越小代表模型越好。在()确定了的情况下,对每个样本点都可以计算出一个和。对新的目标函数 式()进行模型寻优,十分依赖和。为了防止过拟合,有时会在模型更新公式()()()中在该轮训练的基学习器上乘以一个系数,称为学习速率(也称缩减系数)。学习速率的取值越小,每个轮次更新时“步长“越小,模型越保守。是典型的并行类算法,其核心是基于自助采样()。假设数据集有个样本,需要在中按照有放回的方式进行采样产生新的数据集,具体采用过程为:每次随机从中挑选一个样本,将其拷贝放入,然后将该样本放回中,再次进行采样,这次采样有可能采到上次放回的样本,如此重复执行次后,得到数据集。从以上过程中可以看出,中有一部分样本会在 中多次出现,一部分样本始终不会在 中出现。一般采用 作为训练集,未被选中的作为测试集,测试结果亦称“包外估计”。“包外估计”的数据没有参与训练,可用来检验模型的泛化能力。算法是在自助采样的基础上完成的。首先在数据集中进行有放回的采样生产个采样集;接着对每个采样集训练对应的基学习器;最后将这些基学习器进行按照一定的方式结合并输出结果。其中对分类任务采用简单投票法进行输出;对回归任务采用简单平均法进行结果输出。长短期记忆网络长短期记忆网络()是在循环神经网络()的基础上改进得来,只是在结构上与一般的 略有不同。它的神经元在 单位元的基础上加了“门”结构机制(输入、遗忘、输出种门),这些“门”可以捕获沿时间步的长期记忆和短期记忆,解决了标准 无法处理长期依赖信息的关键症结点 梯度消失和梯度爆炸问题。网络的原理如图所示。的核心构成是细胞元组,其在时刻的状态记为,计算公式为?()式中:为遗忘门,表示时刻单元状态 的哪些特征用于计算;为输入门;?为新的记忆状态更新值,它是由当前状态输入数据和上一时张庭婷等:基于多模型融合 集成学习的油田产量预测图 的单元架构示意图 刻单元组的状态 得到。、和?等的计算公式如下:(,)()(,)()?(,)()?()(,)()()()式中:、分别为输入门、遗忘门和输出门函数的权重项;、分别为输入门、遗忘门和输出门的偏置项;为矩阵对应元素相乘。通常用 作为遗忘门、输入门的激活函数,其输出为一个介于,区间内的值。用 函数作为单元状态更新值的激活函数,将数值限制在(关于原点对称),适用于对信息的压缩。图 的网络架构示意图可以看出,从时刻到时刻 传递的是长时记忆 和短时记忆,在本时刻中,各项参数主要依靠几个门控函数进行计算。遗忘门的作用是通过当前时刻输入和上一时刻传递的短时记忆信息对长时记忆信息进行选择,选择重要性较大的进行保留,否则将其舍弃。当前时刻的输入门用于决定当前时刻的输入有多少要被保存至长时记忆中。随后将经遗忘门和输入门的控制输出后的两部分新旧记忆相加得到当前时刻最终的长时记忆。时域卷积网络时域卷积网络()是在 和 的基础上发展起来的一种能够处理时间序列数据的网络结构,在特定条件下,处理效果优于传统的神经网络(、等),与 类似,也避免了递归模型的常见缺陷 梯度爆炸消失或缺乏内存保留等。的基本原理如图所示。的显著特点是:结构上的卷积是因果关系,即是没有从未来到过去的信息泄露;体系结构可以获取任意长度的序列,并将其映射到相同长度的输出序列。对一维序列输入和卷积核:,元素的扩张卷积运算公式为()()()()()式中:为扩张系数;为卷积核大小;表示过去的方向。值的大小与神经网络的感受野有关,当时,扩张卷积为规则卷积,值越大,代表顶层的输出可代表更大范围的输入,从而有效扩展神经网络的感受野。因此,有两种方式可扩大 的感受野:一是选择大的卷积核,二是增加扩张系数。通常情况下,以指数形式增长,这确保有效命中历史记录中的每个输入。随着网络深度的增加,越大,代表可生成庞大的有效历史记录,如图()所示。残差块 图()包括一个分支,该分支引出一系列傅立叶变换,变换后的输出同作为输入。()()在图()所示的残差块里,包括扩张因果卷积 和 非 线 性 两 层,对 此 采 用 修 正 线 性 单 元(),以防止梯度消失,提高模型的表达能力,使网络具有稀疏性。在归一化中,对卷积核采用权科

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开