分享
基于FL-XGBoost算...——以胜利油田牛庄地区为例_彭英.pdf
下载文档

ID:2248037

大小:1.68MB

页数:10页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 FL XGBoost 胜利油田 地区 彭英
第30卷第1期油气地质与采收率Vol.30,No.12023年1月Petroleum Geology and Recovery EfficiencyJan.2023收稿日期:2022-05-15。作者简介:彭英(1970),男,河北迁安人,高级工程师,博士,从事油气勘探数据分析及勘探信息系统开发管理工作。E-mail:。基金项目:国家自然科学基金项目“储层天然气水合物相变和渗流多场时空演化规律”(51991365),山东省自然科学基金项目“基于多源数据融合的浊积岩有效储层预测方法”(ZR2021MF082)。文章编号:1009-9603(2023)01-0076-10DOI:10.13673/37-1359/te.202205031基于FL-XGBoost算法的砂泥岩识别方法以胜利油田牛庄地区为例彭英1,李克文2,朱应科1,徐志峰2,杨澎涛1,孙秀玲3(1.中国石化胜利油田分公司 物探研究院,山东 东营 257000;2.中国石油大学(华东)计算机科学与技术学院,山东 青岛 266580;3.山东胜软科技股份有限公司,山东 东营 257000)摘要:砂泥岩识别任务通常基于测井曲线,依据经验公式、实地岩心取样、交会图和聚类分析等传统方法实现,但这些方法难以充分利用测井曲线所包含的砂泥岩特征,且精度低、效率低,人为影响因素大。为此,以测井和录井资料为基础,综合砂泥岩识别的关键技术难点,对测井参数进行敏感性分析,以选取适当的影响因素,通过多项预处理操作构建完整的训练数据集,并根据测井标签稀疏性的特点,引入Focal Loss函数,提出FL-XGBoost模型,进而开展胜利油田牛庄地区砂泥岩识别。研究结果表明,采用FL-XGBoost算法的砂泥岩识别模型对研究区砂泥岩识别的准确率达到了0.827。通过5种公开分类数据集设计对比实验,证明FL-XGBoost算法在识别分类领域上具有强泛化能力。关键词:FL-XGBoost算法;迭代决策树;机器学习;砂泥岩识别;测井资料中图分类号:TE319文献标识码:AFL-XGBoost algorithm-based method for identifying sandstoneand mudstone:A case study of Niuzhuang area in Shengli OilfieldPENG Ying1,LI Kewen2,ZHU Yingke1,XU Zhifeng2,YANG Pengtao1,SUN Xiuling3(1.Geophysical Exploration Research Institute of SINOPEC Shengli Oilfield Company,Dongying City,Shandong Province,257000,China;2.College of Computer Science and Technology,China University of Petroleum(East China),Qingdao City,ShandongProvince,266580,China;3.Shandong Shengruan Technology Co.,Ltd.,Dongying City,Shandong Province,257000,China)Abstract:sandstone and mudstone identification tasks are usually based on logging curves and rely on traditional methodssuch as empirical formulas,field core sampling,cross plots,and cluster analysis,but these methods fail to make full use ofthe sandstone and mudstone features contained in the logging curves.At the same time,these traditional methods have lowaccuracy and slow efficiency and are greatly affected by human factors.To address the above problems,this paper uses logging data as the basis,combines the key technical difficulties of sandstone and mudstone identification,and conducts sensitivity analysis on logging parameters,so as to select appropriate influencing factors and construct a complete training dataset through several pre-processing operations.In addition,the paper introduces the Focal Loss function and proposes theFL-XGBoost model according to the sparsity of logging labels and carries out sandstone and mudstone identification in Niuzhuang area of Shengli Oilfield.The experimental results show that the sandstone and mudstone identification model usingthe FL-XGBoost algorithm achieves an accuracy of 0.827 in identifying the sandstone and mudstone in the study area.Finally,the strong generalization ability of the FL-XGBoost algorithm in the identification classification field is verifiedthrough five publicly classified dataset design comparison experiments.Key words:FL-XGBoost algorithm;iterative decision tree;machine learning;sandstone and mudstone identification;logging data第30卷第1期彭英等.基于FL-XGBoost算法的砂泥岩识别方法 77 岩性识别对石油勘探开发具有重要意义,已成为众多学者关注的焦点。砂泥岩识别是储层预测工作中非常重要的环节1,也是诸多研究的基础,其所需的测井资料通常由专家按经验解释完成,因此识别结果存在一定的主观性。在常规的砂泥岩识别方法中2-6,地震反演作为砂体预测的常规技术已得到广泛应用,但不论是叠后反演还是叠前反演,均受限于地震的纵向分辨率,井间预测结果分辨率较低、可靠性较弱,准确率有待进一步提高。对于岩性信息的获取多依靠实地岩心取样、交会图和聚类分析7等传统方法和数理统计方法,但这些方法仍存在人力和时间成本较高等局限,因此有必要提出更可靠、稳定的学习算法以解决地质应用中砂泥岩自动识别分类的问题。近年来,随着计算机硬件性能的高速提升以及大数据技术的不断发展,对石油工业的发展产生了巨大的推动作用8。因此,将迅速发展的大数据技术与测井曲线相结合识别砂泥岩,已成为目前储层研究砂泥岩识别的重要手段9-14。机器学习算法从井点出发,充分挖掘地震属性与测井岩性敏感曲线之间的数据关系,最大限度地发挥地震属性的利用价值,其预测结果的纵向分辨率高于确定性反演,井间可靠性优于地质统计学反演。随机森林算法15-17的训练速度快、准确率较高,能够有效地运行于大型数据集,且引入随机性,不易过拟合;该算法对于不平衡的数据集可以平衡误差,但对于小型数据或低维数据(测井数据),则难以产生较好的分类,易出现很多相似的决策树,导致真实的预测结果被掩盖。深度神经网络算法18-22可以较好地解决非线性问题,进而实现面向相关专业领域的迁移学习,这是建立在充足训练数据量的基础之上,但若在岩性识别任务的训练过程中,面对较为稀少的测井数据,神经网络在推理过程中无法提取足够的测井特征,易导致过拟合问题23,使得模型无法获得较高的准确率。XGBoost是一种基于迭代决策树模型的集成学习算法24-26,是基于利用一阶导数相关信息的迭代决策树(Gradient Boosting Decision Tree,简称GBDT)的改进算法,在很大程度上提高了模型的训练速度和预测的准确度。对于深度学习算法而言,XGBoost算法只适用于处理结构化的特征数据,而直接对测井、录井曲线等数据进行处理则较为困难,且XGBoost算法的参数过多,调参复杂。由以上分析可以得出,诸如随机森林、深度神经网络等机器学习算法可以较好的解决相关地质问题,已经获得了显著的效果,为提升地质工作效率提供了新的思路和方法,然而在砂泥岩识别领域仍存在关键技术难点:样本集的选取以及预处理对于机器学习算法的性能具有较大影响。砂泥岩岩性数据复杂多样,根据测井参数与岩性的分析,选取合适的测井曲线参数是影响砂泥岩识别准确性的关键之一。因此,需基于特定样本数据设计相关人工智能算法与超参数调优策略,充分发挥智能算法的优势,以满足砂泥岩识别准确性的需求。为此,笔者以测井和录井资料为基础,考虑砂泥岩识别的关键技术难点,对测井参数进行敏感性分析,以明确影响因素;通过多项预处理操作构建完整的训练数据集,根据测井标签稀疏性的特点,将 Focal Loss 函数引入 XGBoost 算法(FL-XGBoost算法),对胜利油田牛庄地区构建砂泥岩识别模型;并将随机森林、深度神经网络算法的训练结果作为对照,以最终砂泥岩识别分类结果的准确率作为评价标准,验证FL-XGBoost算法应用于测井砂泥岩识别的可行性;最后通过5种公开分类数据集设计对比实验,验证FL-XGBoost算法在识别分类领域上的强泛化能力。研究成果可以为FL-XGBoost算法对砂泥岩识别的可行性提供理论依据,为传统的测井岩性识别提供新的思路。1相关理论GBDT算法是一个树结构(可以是二叉树或非二叉树)27,由多棵决策树组成,以所有决策树的结论累加起来作为最终答案,具体原理为:每个非叶子节点表示一个特征属性的测试,每个分支代表这个特征属性在某个值域的输出,而每个叶子节点存放一个类别,迭代决策的过程是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果27。GBDT算法的思路是不断地添加决策树,进行特征分裂以生长一棵决策树,且每次添加一个决策树,为学习一个新函数,进而拟合上次预测的残差。当训练完成得到k棵决策树,则要预测一个样本的分数,其实就是根据这个样本的特征,在每棵决策树中落到对应的一个叶子节点,每个叶子节点即对应一个分数,最后只需将每棵决策树对应的分数相加即为该样本的预测值。XGBoost算法是基于二阶泰勒展开式将损失函数展开,并且将正则项置于目标函数之外,这降低了模型的复杂度,更易于获得最优解,通过控制目标函数的不断下降,使得模型能够更好地收敛,有 78 油气地质与采收率2023年1月效避免过拟合,从而提高了预测准确率。该算法在训练前对数据进行预处理,将其结果保存,在后面的迭代中可以重复使用,从而降低计算复杂度,实现并行

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开