温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
SMOTE
采样
随机
森林
风险
评估
方法
收稿日期:;修订日期:。作者简介:易思琦(),女,硕士研究生,现从事石油工程大数据方向的研究工作。:。通信作者:魏凯(),男,博士,现从事机械波改造储层技术、智能钻井风险评价、石油工程数值模拟等方面的教学和研究工作。:。文章编号:()基于 欠采样的随机森林卡钻风险评估方法易思琦,魏凯(长江大学石油工程学院,湖北武汉 )摘要:钻井工程监测参数与井下复杂事故之间存在相关性,故基于 欠采样的随机森林方法建立钻井工程风险评估监测模型,以此起到规避风险的目的。首先,需要将随钻数据进行筛选与挖掘,根据调研结果确定特征参数,做好建模前的预备工作;其次,利用随机森林算法建立模型;最后,在考虑监测参数与井下复杂事故联系和交叉验证的基础上调整模型参数,计算卡钻事故的风险概率。实验结果表明,基于 欠采样的随机森林钻井工程风险评估方法预测值与现场实际结果基本吻合。关键词:随机森林;钻井工程;风险评估;卡钻预测中图分类号:文献标识码:,(,):,:;钻井工程面临地质构造复杂、影响因素众多等特点。在钻进过程中极容易发生各类安全事故 。据雷斯特能源报告显示,在过去三年的石油勘探开发钻井中,勘探成功率只有 ;基于现有卡钻风险评估方法存在的成本高及分类性能差等问题,提出了基于 欠采样的随机森林卡钻风险评估方法。该方法通过数据处理,降低了样本集的不平衡性 。随着石油技术不断发展以及业务数据指数级上升,机器学习和钻井工程结合已经成为必然的趋势,其发展为海量数据的存储和计算都提供了新的解决思路。卡钻概述卡钻指的是钻进过程中钻具无法活动的一种现 年 月石 油 地 质 与 工 程 第 卷第 期书书书象 。其产生与地质情况、钻井液性能、操作标准等都有关联。其类型包括压差卡钻、吸附卡钻、坍塌卡钻、砂桥卡钻等,不同卡钻类型其原因和危害程度都不同 。基于此,建立合理的卡钻风险评估模型十分必要 。在钻井过程中,专业人员通过将参数分为可变和不可变两大类(可变参数一般指工程参数,不可变参数一般指地层参数),动静结合地对钻井情况进行分析 。在特定条件下,钻井状态的某些参数和状态呈线性或强相关联系;当卡钻事故发生时,部分参数数值也会随之发生改变。基于 欠采样的随机森林卡钻风险评估模型?合成少数类过采样()通过生成少数类样本而改变不平衡数据集数据分布的采样方法 ,其本质是选定某个少数类样本 ,然后随机在最近邻样本 和 的连线上选点生成新数据 。相较于传统的采样方法而言,他的模型拟合度更低,在解决不平衡数据集上效果更好。详细步骤为:选定少数类样本 以及其对应的 近邻样本值 ,其中,与 之差为 之间的特征差向量;在 ,区间内随机抽取实数,将抽取的实数 值作为权值,将权值 与差向量相乘 ;将样本 的特征向量与上一步所得乘积相加得到合成样本。实际钻井中,存在卡钻样本数量少,整体样本分布不平衡等问题 。因此,为了提高预测精确度,增加少数类样本对模型构建的敏感程度,有必要采用 过采样方法进行采样,来提高数据对模型的适应能力。?特征处理科学的数据预处理在提高模型计算力的同时,能够带来高质量的决策 。构建随机森林模型过程中,需要选取卡钻事故发生过程中波动明显的参数作为特征向量,补全缺失值后进行特征处理工作。经过处理后的样本,将保留与其他参数相关性低和对预测结果影响高的部分。其中,样本集特征向量 ,转速、泵压、黏度、泥浆体积、含砂量、排量、泥浆密度,输出的风险类型 ,(其中 代表正常,代表卡钻)。另外,为了方便将随机森林算法和其他算法进行对比,本文对数据进行归一化处理,即遍历样本集中数据,将最值记录后,以差值为基数进行除法计算(图 )。图 特征处理流程 随机森林随机森林算法是一种集成学习的分类回归算法,较传统的机器学习方法而言,具有性能好、稳定性高的优点。实际情况中存在钻井样本数据量大且样本分布不均这些问题,故本文选择随机森林模型来对卡钻事故进行预测。各类机器学习方法优缺点如表 所示。表 机器学习算法优缺点算法优点缺点随机森林分类精度高,运算速度快且调整参数简单,处理大数据性能优异对小数据低纬度分类效果差线性回归建模速度快,能够解释变量不能很好地拟合非线性数据决策树对缺失值不敏感,能够处理不相关特征数据类别多时错误率高,特征关联强时表现差神经网络具有自学习功能成本高,黑匣子问题随机森林模型会在自动采样后根据基尼系数建立多棵由根节点、叶子节点和子节点组成的决策树,再基于多数投票法原理对这些树的决策结构进行判断,从而给出决策结果。通过建立决策树,可以明确不同指标所对应的级别。本文选择最小二乘法来构建决策回归树。首先,该算法会将转速、泵压、黏度、泥浆体积、含砂量、排量、泥浆密度等特征向量所拥有的区域划分为两个子范围区,并计算其对应的输出值;在这个过程中,算法会不断重复这一步骤,直到划分的子范围区满足要求。然后,再根据该区域划分的 个子区域来构建决策树。其生成决策树公式为:()()()式中:为划分后的 区间,为该区间响应的输易思琦等基于 欠采样的随机森林卡钻风险评估方法出值;为指示函数,满足括号内条件时取值为 ,否则为 。基于随机森林的机制,在采样建模后约有三分之一的钻井随钻数据将不会被使用,通过这部分数据,产生的基学习器可以进行包外估计,以此来泛化误差 。其计算公式为:(,)()()式中:为原始数据集的大小;为误差函数,其值为预测正确率;和 分别表示未被训练的原始样本输入输出值,为样本 的包外预测值。综上所述,基于随机森林算法的卡钻风险预测模型构建步骤主要为:从经过 采样后的钻井事故数据中随机抽取样本,构造决策树;选取特征以最小方差准则筛选最优分割点,达到分裂条件后停止;每棵回归树都会产生结果,根据多数投票法,决策出最终结果。参数调优利用网格搜索方法可以对决策树进行最大深度寻优,在穷举法原理基础上进行模型参数优化。通过设置参数的取值范围,可以计算相关联的节点值,通过对比均方误差,得到较优参数组合,对包括特征最大值、子树数量、树最大深度等在内的关键参数进行优化,从而提升模型预测的精确度。为了实现这一功能,本文选定 库中的 方法进行参数选择,该方法可以对分类器输入指定参数名称,然后分类器会将数据转换成字典格式传入该分类器的函数,从而计算出最佳参数组合。结果分析?基于随机森林的卡钻风险模型建立后,在混淆矩阵的基础上,需要对模型的分类准确度()、召回率()、虚警率()和精确度()等指标进行计算和分析,以此来确定模型是否符合标准。该矩阵中,其列代表的是预测的正常和卡钻类的实例,而行代表的则是实际的类结果。基于卡钻的混淆矩阵如表 所示。表 卡钻分类预测值 真实值(真实)正常(真实)卡钻(预测)正常正常预测结果为正常的样本数量()卡钻预测结果为正常的样本数量()(预测)卡钻正常预测结果为卡钻的样本数量()卡钻预测结果为卡钻的样本数量()基于此,各评价指标的计算公式如下:()()()()通过上述评价指标,来检验基于 采样的卡钻预测模型是否能够应用于实际,其具体来说就是,在确保正确率的基础上,使召回率、精确度等指标尽可能地高。?按照上述方法,选取某地区 口井的钻井数据作为训练样本,借助 实现平台,基于 库建立卡钻安全事故预测模型。对样本集 过采样后,再对模型参数调优(图 )。所建模型参数为:子树数量 ,分裂内部节点最少样例数 ,叶子节点最少样例数 ,树最大深度。样本输入模型后,该算法会随机抽取特征并构建多棵熵值下降最快的决策树。图 随机森林处理流程通过观察建立的不同决策树,发现当转速均值小于 ,泵压均值大于 时(归一化值后),石 油 地 质 与 工 程 年第 期卡钻概率大大增加。对比原始钻井样本预测结果后发现,经过 处理过的数据集表现性能更好,其训练模型对存在的风险数据更敏感。故基于 欠采样的随机森林卡钻风险评估模型在处理实际问题时具有更大的优势。为了直观地对风险模型进行评价,一般采用式()()来计算各个事故类型的分类准确度、召回率、虚警率和精确度,其结果见表 。表 不同算法评价分类算法准确度召回率虚警率精确度随机森林 线性回归 决策树 神经网络 为进一步验证基于 欠采样随机森林卡钻风险评估方法的优越性,选取不同地区多组不平衡钻井数据做检验,利用不同算法来完成对测试集的预测。测试样本预测准确度图 所示,基于 欠采样随机森林算法在处理非平衡数据回归问题上具有良好的性能。图 不同算法预测准确度 结论)欠采样方法对样本进行处理,可以最大程度上保留多数类中的有效信息,提高模型对于少数类样本的敏感程度,从而提高井下复杂事故预测准确度。)在建模时运用了基于代价敏感性学习思想的随机森林方法,随机森林在处理海量数据和不平衡数据方面都有优异的性能,符合钻井工程发展的趋势。)受原始数据影响,基于 欠采样的随机森林卡钻风险评估方法仅采用单一地区部分数据集进行建模及预测,且样本中特征量较少,未涉及到模型在高维度不平衡数据集上的应用。因此,在后续的建模中,应当训练模型在不同地区不同数据集上的适应能力。参考文献 苏晓眉,张涛,李玉飞,等 基于 聚类算法的沉砂卡钻预测方法研究 钻采工艺,():杨毅,梅颖 面向不平衡数据集的一种基于 的集成学习算法 丽水学院学报,():刘建明,李玉梅,张涛等 一种基于 的卡钻预测方法 北京信息科技大学学报(自然科学版),():范玉光,杨恒林,付利,等 川渝地区水平井卡钻类型与防治措施研究 西部探矿工程,():赵帅,黄亦翔,王浩任,等 基于随机森林与主成分分析的刀具磨损评估 机械工程学报,():张天翼,丁立新 一种基于 的不平衡数据集重采样方法 计算机应用与软件,():唐思均 基于优化 算法的非平衡大数据集分类研究 沈阳工程学院学报(自然科学版),():石洪波,陈雨文,陈鑫 过采样及其改进算法研究综述 智能系统学报,():张天翼,丁立新 一种基于 的不平衡数据集重采样方法 计算机应用与软件,():谭天一,张辉,马丹妮,等 考虑数据不平衡影响的钻井复杂智能诊断方法 石油钻采工艺,():胜亚楠,管志川,张国辉,等 基于钻前风险预测的井身结构优化方法 石油钻采工艺,():汪力纯,刘水生 基于混合采样和特征选择的改进随机森林算法研究 南京邮电大学学报(自然科学版),():饶姗姗,冷小鹏 基于组合特征选择的随机森林信用评估 计算机系统应用,():赵龙,桑国庆,武玮,等 基于随机森林回归算法的山洪灾害临界雨量预估模型 济南大学学报(自然科学版),():李玉强,陈軻昊,李琦,等 基于差分隐私下包外估计的随机森林算法 哈尔滨工业大学学报,():(编辑赵川喜)易思琦等基于 欠采样的随机森林卡钻风险评估方法