温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
机器
学习
石油工业
中的
应用
地球科学
油藏
工程
生产
石油工业计算机应用COMPUTER APPLICATIONS OF PETROLEUMMarch.20232023年3月1引言石油被称为黑金(black gold)。无论在经济领域、政治领域还是科技领域,石油都非常重要。人工智能将是未来社会和经济变革的关键推动力。正如18世纪的蒸汽技术革命、19世纪的电气技术革命、20世纪的信息技术革命深刻影响了人类社会和生产,21世纪人工智能革命,必将更深刻影响人类社会和生产,包括重塑油气勘探和生产工业。1.1 石油勘探与生产本文主要关注上游服务。石油和天然气工业(简称油气工业)的上游部门,也被称为勘探和生产(简称E&P)部门。它包括与寻找、开发和生产原油和天然气相关的活动(如图1)。勘探勘探部门包括获得租赁和钻探的许可,进行必要的地质和地球物理(G&G)调查,寻找石油或天然气资源。钻井G&G 调查结果总是存在不确定性。确定前景唯一方法是钻探井。这项工作由钻井承包商和服务公司完成。生产生产部门的任务是最大限度地从地下储层中采收石油天然气,包括一次采油、二次采油方法,以及三次采油(或提高采油率方法),直至井的生产寿命的终结。石油和天然气行业以寻找和开发“大油气田”作为目标,今天还有另一件大事“大数据”。油气行业正在寻找大数据分析的方法。大数据分析涉及访问大量不同种类的石油和天然气数据,这些数据利用机器学习算法,以发现未知的关系那些以前没有并不知道的关系。在油气工业上游,勘探和生产(E&P)的每一步,都可以受益于人工智能/机器学习(AI/ML)工具的应用,例如,勘探数据采集、数据挖掘、分析评估、前景排名、油藏评价、探井位置设计;钻井井轨迹设计、优化泥浆、地质导向、储层压力、MWD/LWD/SWD、完井;生产和提高采收率油藏描述、生产优化、油藏监督、采收率优化、水力压裂、经济预测。人工智能数据科学是勘探与生产的变革性技术。1.2 人工智能与机器学习1.2.1 人工智能有三种人工智能:ANI、AGI和ASI(如图2)。人工窄智能 ANI(Artificial Narrow Intelligence)机器学习在石油工业中的应用:地球科学 油藏工程 生产工程摘要:人工智能/机器学习(AI/ML)已经成为大数据、机器人和物联网等新兴技术的主要驱动力。数字化转型深入到石油和天然气行业,以重塑地球科学、油藏工程和生产工程,寻求勘探和生产(E&P)业务更高的生产率。AI/ML是即将到来的下一个技术突破。通过在石油和天然气运营中利用AI/ML,可以设计算法来指导E&P。AI/ML系统将使用E&P作业的历史数据进行训练。关键词:石油工业;勘探与生产;人工智能/机器学习;地球科学;油藏工程;生产工程;数字孪生体;物联网王宏琳(中国石油集团东方地球物理公司)特邀论文 作者简介:王宏琳,教授级高级工程师,1963年毕业于同济大学应用数学专业,从事石油工业计算机应用与软件开发。732023年3月石油工业计算机应用图1 油气工业上游是一种专注于单一窄任务的人工智能,它具有范围狭窄的能力。ANI可以解决特定的领域问题,甚至于超过人类同行。但是,它们只擅长于一项或几项密切相关的任务,能力范围有限,专门为狭隘的用途而设计。至今为止的人工智能,都属于ANI。这是目前存在的唯一AI。但是,今天的ANI主要基于深度学习技术,具有严重的局限性。例如:(1)对数据要求过高,需要大量高质量的数据才能产生准确的结果,并且并非所有环境都满足这些数据要求。(2)将知识转移到其他领域的能力低。如果任务发生更改,则系统的效率会降低,因为它是针对特定目的进行编程的。(3)缺乏明晰的推理过程和知识表示,如同不透明的黑盒子。人 工 通 用 智 能 AGI(ArtificialGeneralIntelligence)是智能主体能够理解或学习人类可执行的任何智力任务,而不是专注于特定的任务。从技术上讲,我们还不能制造出如此复杂的东西。AGI也可以称为强AI,全AI。这是人工智能(AI)的最初目标,不过,到目前为止,没有一个人工智能程序可以称为AGI。AGI是AI进化的下一个逻辑步骤,相当大的一步。2020年,MIT出版社出版了赫伯特 罗伊特布拉特一本书,题为 算法是不够的:创造通用的人工智能1。在这本书中,罗伊特布拉特指出AGI是可能的,以及为什么机器人世界末日既不迫在眉睫,也不太可能发生。AGI通常被称为“强”人工智能,因为它能够执行认知过程。在人类智能尺度上,AGI 表现出与人类同等的智能。长期以来,研究人员一直想制造一种能够像人类一样思考和行动的机器。虽然我们还没有完全做到这一点,但2022年5月,DeepMind发布最新人工智能系统,可能让我们更近了一步。受大规模语言建模进展的启发,DeepMind采用类似的方法,来构建超越文本输出领域的单一通才代理,他们称之为Gato,可以执行600多项不同的任务,例如:与人类聊天、玩视频游戏、为图像添加字幕、使用真正的机械臂堆叠彩色积木等等。DeepMind CEO哈萨比斯直接说:这是我们目前最通用的智能体。Gato真的很聪明,有些专家表示现在实现AGI只是让AI模型更大、更高效,并提供更多训练数据。但其他人持有怀疑态度,确信深度学习不是故事的结局,将会有其他创新填补我们目前在创造力和互动学习方面的一些空白。人工超级智能ASI(Artificial Super Intelligence)可以使机器变得足够自我意识/自我警觉,超越人类的智力和行为能力。从AGI到ASI的进化,理论上要比我们现在从ANI到AGI的速度快得多,因为一旦计算机能够真正从经验中学习并通过反复试验,AGI将允许计算机“思考”并成倍地提高自己。如果真的发生了向ASI的转变,那么理论上预期在此时发生的指数增长通常被称为“智力爆炸”。直到目前,在油气行业,使用的全部是窄人工智能技术。1.2.2机器学习人工智能是一个非常宽广的领域,涵盖很多大学科,目前最主要有6个:机器学习(包含各种统计的建模、分析工具和计算方法)、计算机视觉(包含模式识别,图像处理等)、自然语言理解与交流(包含语音识别、合成和对话等)、认知与推理(包含各种物理和社会常识)、机器人学(包含机械、控制、设计、运动规划、任务规划等)、博弈与逻辑(包含多agents的交互、对抗与合作,机器人与社会融合等)。在这样观点下,机器学习是作为人工智能的组成部分。图2 三种类型人工智能742023年3月王宏琳:机器学习在石油工业中的应用:地球科学 油藏工程 生产工程机器学习是使计算机无需明确编程即可学习的研究领域。从名称可以明显看出,它为计算机提供了与人类更相似的能力:学习能力。人工智能机器学习发展了许多工具,从图像识别、聚类分析,到自然语言处理,都可能应用于油气工业上游。历史上,人工智能和机器学习,可追溯到二战期间,艾伦 图灵(Alan Turing)经常讨论计算机如何从经验中学习。第一台通用计算机(ENIAC,1945)问世后不久,图灵1947年在伦敦数学学会上的演讲是计算机智能最早的公开讲座,他指出,“我们想要的是一台能够从经验中学习的机器”。机器学习领域基本的理论发现,可以再追溯到更早,如贝叶斯定理(1763年)和最小二乘法(1805年)。但是,术语“机器学习”一词只是到了1959年才由计算机游戏和人工智能领域的先驱亚瑟 塞缪尔(Arthur Samuel)首次提出的。他给出的定义是:机器学习是使计算机无需进行显式编程即可学习的研究领域。通俗说,机器学习(简称ML)是算法的科学领域,其目的是教会计算机做人类和动物天生就会的事情:从经验中学习(如图3),研究通过经验自动改进计算机算法。通过训练的计算机,变得足够聪明,可以在没有指示的情况下,做预测、做决策,计算机还可以利用提供给它的新数据,来升级他们的知识。机器学习使计算机能够处理迄今为止仅由人执行的任务从驾驶汽车到翻译语音。例如:机器学习算法会回答照片中的水果是香蕉还是苹果;发现有人在无人驾驶汽车前横过马路;识别句子中使用单词“book”一词,是指的“书”还是“旅馆预定”;判断电子邮件是否为垃圾邮件;识别语音生成视频的字幕。20世纪50年代和60年代,是机器学习乐观主义的时期,机器学习可以玩简单的游戏,以及执行寻找最短路线等任务。20世纪70年代,在机器学习方法以及地球科学中的应用(如图4)方面几乎没有什么进展,这是由于在最初的预期没有达到之后的“第一个 AI 冬天”。但是,由于“克里金法”不被认为是一种人工智能技术,因此它不受这种文化转变的影响,并在采矿、海洋学和水文学中得到应用。这部分是由于其效果优于其他插值技术,而且还提供了不确定性措施。20世纪90年代,通常被认为是机器学习从知识驱动到数据驱动的转变。随着对应用统计和机器学习的研究,支持向量机(SVM)、基于树的方法随机森林(RF),以及特定类型的循环神经网络(RNN)长短期记忆(LSTM),是这十年标志成果。SVM很早就被用于遥感中的土地利用分类。至于“随机森林”一词,是在2001年才被创造出来,而且最初的统计基础不那么严格,实施起来也更加复杂,随机森林在更广泛的应用中被推迟了。LSTM需要大量数据进行训练,而且训练成本很高。从20世纪50年代至今,情况发生了很大变化。现在以硬件和软件形式的计算资源,广泛可用,云计图3 机器学习(左)与人类学习(右)比较图4 机器学习时间表752023年3月石油工业计算机应用算供应商提供任何人都可以负担得起高性能计算。高质量的机器学习软件通过免费和开源软件运动广泛可用,主要公司(谷歌、Facebook、微软)竞相推出开源机器学习框架(Tensorflow、Pytorch)。神经网络是当今机器学习研究的主要主题,然而,导致这些成功的重大发展,是在20世纪90年代之前取得的。1958年7月,美国海军研究办公室公布了一项了不起的发明。把一系列穿孔卡片送人一台IBM 704(5吨重的房间大小的计算机),经过50次试用后,计算机自学了区分左侧标记的卡片和右侧标记的卡片。它的创造者弗兰克 罗森布拉特说,这是“感知机”的一次演示。罗森布拉特的目标是让机器识别物体。而这在60年后才最终能够做到的。问题是,罗森布拉特的感知机只有一层,而现代神经网络有数百层。当时,罗森布拉特不知道如何训练多层网络。但事后看来,罗森布拉特的算法仍然是我们今天如何训练深层网络的基础。我们重新用一种更现代方式来描述罗森布拉特的感知机,如图5所示。20世纪60年代末感知机迅速衰落。经常被认为是马文明斯基在西摩帕普特 1969 年书名为Perceptrons(感知机)一书,促成了网络模型研究的消亡。再次复兴最重要的事件之一是鲁梅尔哈特在1986年提出新的学习过程在神经元网络中反向传播算法(BP算法)。1986年和1987年,鲁梅尔哈特、麦克莱兰和PDP研究小组分别出版了两卷著作 并行分布式处理(PDP)。并行分布式处理网络的例子(如图6)所示。这是利用前馈模型学习将字母字符串的拼写,映射到它们的声音上。包括字素单元(输入母字符串的拼写),隐藏单元和输出单元,该模型从一组训练示例中学习,按照目标函数相对于每个连接权重的梯度,调整每个连接权重。还值得一提的是在1994年,罗斯和塔拉托拉应用具有s状激活函数的多层神经网络的构建块来进行地震反演。他们成功地在小的训练数据上转换了低噪声和无噪声的数据。1.2.3深度学习深度学习(也称为深度神经学习、深度神经网络,或深层结构学习)是机器学习的一个子集,使用由多层大量(数百万)人工神经元组成的神经网络。机器通过由层层信息组成的人工神经网络,模仿人类思维模式的能力,用于检测物体、识别语音、翻译语言和做出决策。深度学习系统的分层功能,使机器能够以非线性方法处理数据。有人称,“实际上,深度学习是一种称为神经网络的人工智能方法的新名称,这种方法已经流行了70多年了”。这样的说法并不准确。深度学习有别于传统机器学习。这里的“传统机器学习”,是指20世纪普通的神经网络,或浅层神经网络。1943 年,沃伦麦卡洛克(Warren McCullough)和沃尔特 皮茨(Walter Pitts)首次提出神经网络,他们的神经元模型,能够实现布尔逻辑语句。神经网络的第一次重大突破,出现在20世纪60年代中期,苏 联 数 学 家 亚 历 克 赛伊 瓦 克 年 科(AlexeyIvakhnenko)在他的助手拉帕(V.G.Lapa)的帮助下创建了小型但功能较强的神经网络,采用有监督深度前馈多层感知器的学习算法。而单层感知机是20世纪50年代罗森布拉特发明的。上世纪 80 年代初,约翰霍普菲尔德(JohnHopfield)的循环神经网络(RNN)引起了轰动,紧接着特里塞伊诺夫斯基(Terry Sejnowski)的程序NetTalk可以发音英语单词。2006年,卡内基梅隆大学教授、计算机科学家杰弗里 辛顿使用了“深度学习”这个词,此后,“深度学习”术语很快广泛流行。21世纪的深度学习与传统神经网络区别在哪图5 感知机示意图图6 前馈模型762023年3月王宏琳:机器学习在石油工业中的应用:地球科学 油藏工程 生产工程里呢?首先,人工神经网络包含输入层和输出层之间的隐藏层。传统的神经网络只包含一个或几个隐藏层。深度学习是一个非常大的神经网络,包含多得多的隐藏层(通常为150个),它们可以存储和处理更多信息。这是深度学习有别于传统神经网络的最重要的一点。因此,名称“深层”用于此类网络。其次,深度学习不需要手工提取特征,而直接将图像作为输入。这是深度学习有别于传统神经网络的另一点。图7描述了在机器学习和深度学习中识别对象所遵循的过程。第三,深度学习需要高性能的 GPU 和大量数据。特征提取和分类是通过称为卷积神经网络(CNN)的深度学习算法进行的。CNN负责特征提取以及基于多个图像的分类。当数据量增加时,深度学习算法的性能也会提高。相反,当数据量增加时,传统学习算法的性能会降低。第四,深度学习使用神经网络,类似于人脑的模拟。与通常使用结构化数据的传统机器学习不同,深度学习还涉及分析大量非结构化数据。这种非结构化数据可以以图像、视频、音频、文本等形式提供。深度学习的正式定义是:深度学习是一种特殊类型的机器学习,它通过学习将世界表示为概念的嵌套层次结构来实现强大的功能和灵活性,每个概念都与更简单的概念相关联,而更抽象的表示则根据不太抽象的概念来计算。深度学习的优点包括:解题表现佳;对特征工程的需求少;降低不必要的成本;轻松识别难以检测的缺陷。缺点是:需要大量数据,训练的计算成本很高;没有扎实的理论基础。有几种深度学习架构:(1)深度神经网络它是一种具有一定复杂性的神经网络(在输入和输出层之间有多个隐藏层)。它们能够建模和处理非线性关系。(2)深度信念网络(DBN)它是一类深度神经网络。它是多层信念网络。执行 DBN 的步骤:(A)使用对比发散算法从可见单元中学习一层特征。(B)将先前训练的特征的激活视为可见单元,然后学习特征的特征。(C)最后,当最终隐藏层的学习完成时,整个 DBN 被训练。(3)循环(对序列的每个元素执行相同的任务)神经网络允许并行和顺序计算。类似于人脑(连接神经元的大型反馈网络)。他们能够记住有关他们收到的输入的重要信息,从而使他们更加准确。深度学习的关键组件是训练集、网络架构和参数优化。深度神经网络(DNN)的架构在不同的应用中也有所不同。机器学习与传统计算机软件的主要区别在于,人类开发人员不必编写代码来指示系统如何分辨香蕉和苹果,取而代之的是,机器学习模型是利用大量数据进行训练,学会区分水果,这些数据可能包含大量标记了的香蕉或苹果的图像。机器学习无需显式编程学习算法,是从数据中学习的算法,因而人们称之为“数据驱动”。如今,当有人提到人工智能引起社会变革潜力时,他们很可能是在谈论机器学习中的人工神经网络。当一篇文章谈人工神经网络突破性进展时,作者很可能指的是深度学习。以最近占据媒体头条的人工智能几个里程碑式的技术突破为例:(1)大型语言模型基础研究机构 OpenAI 推出的超大规模语言生成模型GPT-3,具有 1750 亿参数的自回归语言模型,不仅会写撰写论文、答题,还懂数学,能够根据简单的提示,编剧本、做报表、画画。最近人工智能绘图软件 MidJourney,其制作的名为 太空歌剧院 的画作,还夺得科罗拉多州博览会的艺术比赛一等奖。(2)智能机器人在一段视频里,特斯拉展示了人形机器人Optimus 在无人操作情况下自主行走,给植物浇水、搬运箱子和举起金属棒等功能。另一款双足机器人Cassie挑战百米跑,创造了双足机器人吉尼斯世界纪录用时 24.73 秒,均速刚刚超过了 4 米/秒。(3)DeepMind公司开发的人工智能系统AlphaFold破解了持续半世纪的蛋白质折叠问题,并且已经预测出地球上几乎所有已知蛋白质结图7 机器学习与深度学习772023年3月石油工业计算机应用构;而同时在华盛顿大学的能够预测蛋白质复合体结构的RosettaFold人工智能系统,正在攻克另一道天堑:从头设计功能性蛋白质分子。还有来自博洛尼亚大学等机构的物理学家,利用人工智能将一个迄今为止需要10万个方程的量子问题,压缩为一个只需4个方程的小任务,而所有这些都在不牺牲准确率的情况下完成。应该指出的是,这些系统的背后均基于深度学习技术。这些人工智能系统令人印象深刻,但还不是人工通用智能,仍然属于人工窄智能。1.3数字化转型石油和天然气行业是数据驱动的业务。该行业在过去几十年间,依靠信息技术,来提高寻找油气的效率,提高油气产量,并降低因设备故障或操作员失误而带来的健康、安全和环境风险。一个例子数据同化,可望整合动态数据和静态模型,整合地球物理和油藏管理,整合地震成像和油藏动态模拟(图8)。作为数据驱动的传统企业,油气工业上游为人工智能/机器学习应用,提供了机遇。当前,物联网和数字孪生技术,以机器学习为支柱,正在改变数字和物理交互的方式。物联网提供物理世界中智能的连接和访问,并与数字孪生体相互关联。数字孪生是一种计算机程序,它将有关物理对象或系统的真实世界数据作为输入,并产生关于该物理对象或系统将如何受到这些输入影响的预测或模拟作为输出。人工智能/机器学习技术的应用,将推动油气工业上游数字化转型,推动实现智慧油田闭环控制。石油和天然气行业在数字化方面曾经落后于许多行业。石油钻井平台的刻板印象是:环境恶劣,工程师冒着恶劣的天气条件,手动检查、监控或修理钻井设备。但是,石油和天然气行业的这种形象正在发生变化。油气工业正在快速走向数字化和自动化。设备监控正变得主动而不是被动(例如,在故障之前而不是之后进行维护)。公司正在投资技术平台,根据数据做出决策,并创建一个面向员工体验的现代数字工作场所。数字化转型是使用数字技术创建新的或修改现有业务流程、文化和客户体验以满足不断变化的业务和市场需求的过程。在数字时代,这种对业务的重新构想就是数字化转型。数字化转型对油气公司的生存至关重要。它会提升应对供应链中断、市场压力和不断变化的客户需求的能力。让我们来看看人工智能在油气行业中的几个实际应用示例:(a)智能数据分析应用人工智能和机器学习算法来描述油气田的特征,使用计算机视觉技术解释地震勘探获得的地下图像,使用自然语言处理自动分析技术文档,能够更快、更有效地探索和评估油气田。(b)智能机器人应用深海人工智能机器人,可以提高自然渗漏探测能力,大大降低勘探风险,并减少对海洋生物的危害。海洋地下探索的自我学习、潜水人工智能机器人自行调整任务设置,以调查意外的异常情况。(c)智能钻井采用强化学习来控制其钻井设备,本质上是使用一个基于人工智能选择的奖励系统。例如,一个根据大量钻井记录中的历史数据进行训练的机器学习模型,可以结合考虑地震测量、温度、压力和钻头的其他数据点,以帮助钻机适应不断变化的地下条件。(d)智能维护通过预测性维护提高生产力,避免计划外停机。为涡轮机、泵和压缩机实施预测性维护技术,可以节省了大量资金。1.4算法和数据1.4.1 算法经典机器学习和深度学习是上游部门和整个油气行业的人工智能应用的主要方法,被用于解决分类、聚类或回归类型问题。机器学习和深度学习算法都是黑盒这些算法包含了非常复杂的多维代数表达式。这些表达式中的系数被定义为拟合描述系统、对象或过程的输入和输出数据。这种拟合过程被称为训练。一旦在已知数据上进行训练,这些算法就可以基于新的输入产生新的见解。混合建模物理驱动模型与机器学习算法一图8 数据同化整合地震数据和油藏模型782023年3月王宏琳:机器学习在石油工业中的应用:地球科学 油藏工程 生产工程起使用,值得关注。但是,物理主导的混合模型和数据主导的混合模型之间是有区别的。在物理为主导的混合模型中,机器学习被用来调整方程的系数,以适应由一个感兴趣的对象产生的实际数据。另一方面,在数据主导的混合模型中,物理驱动模型用于生成大量的训练数据,在此基础上,加上真实数据,机器学习问题的物理性质并帮助解决它。此外,涉及人工智能规划的应用程序一套优化和机器学习方法,以计划一些行动以实现目标,通常由自主机器人、智能代理和无机组人员车辆执行也正在在石油和天然气行业出现。1.4.2 数据现有的人工智能机器学习方法的共同点是:如果不能获得足够大、足够好的训练数据,人工智能算法就不那么有用,有时甚至毫无用处。“足够好”意味着数据必须足够多样化,以涵盖所有感兴趣的事件、活动和行为。例如,要构建一个成功的预测维护解决方案,数据集必须包含足够的故障记录,以便从中学习。另一方面,什么是“足够多”的数据集,则取决于正在解决的问题的上下文(以及算法开发的速度)。有人估计,为了用监督深度学习方法达到某种可接受的性能水平,大约需要5000个标记的例子进行训练。而要匹配或超过人类水平的性能,至少需要1000万个标记样本。石油和天然气行业是非常丰富的。表1总结了其资源的来源、格式、大小、生成速率和上游的应用程序领域。2地球科学机器学习地球科学是研究地球的,不仅仅包括岩石和火山,研究形成和塑造地球表面的过程,还研究自然资源,以及水和生态系统是如何相互联系的。地球科学是地质学和地球物理学的结合体。油气工业许多人开始称自己为地球科学家,而不是“地质学家”或“地球物理学家”。一些与地球科学有关的问题,已经通过应用机器学习算法得到了解决。2.1 从应用统计学到数据驱动的人工智能机器学习深深植根于应用统计学,建立使用推理和模式识别而不是显式规则集的计算模型。许多数学和统计方法和概念,包括贝叶斯规则、最小二乘法和马尔可夫模型都应用于机器学习。高斯过程最早脱颖而出,因为它们起源于时间序列应用和地质统计学。地质家采用的“克里金法”,最初将二维高斯过程应用于金矿估值预测,此后在地质统计学中得到广泛应用。早在20世纪60年代,k-means、马尔可夫模型和决策树等直观方法就已被用于地球科学。例如:1964年K-means被用来描述沉积物的周期性;1969年,马尔可夫链和嵌入马尔可夫链被应用于沉积过表1 石油工业上游数据792023年3月石油工业计算机应用程。马尔可夫链早期应用的一些示例还包括:1966年在测井分析、1967年在水文学和1968年在火山学中应用。基于决策树的方法,在经济地质学中,也有过早期应用。在20世纪80年代,油气工业曾经对于专家系统产生过浓厚的兴趣。1991年1月,SEG(勘探地球物理协会)出版过一本称为 勘探专家系统2的书,讨论了专家系统可以帮助解决不同的石油勘探问题。该书第1章提供了一个关于石油工业问题的那时最先进的专家系统的广泛回顾。重点是专家系统如何处理来自不同学科的数据和规则的不确定性和不精确性。模糊逻辑,证据推理和神经网络将被证明在许多专家系统的设计中是必不可少的,这些专家系统能够解决更实际的勘探问题。使用基于规则的系统自动拾取叠加速度的问题在该书第二章中讨论。专家系统自动完成挑选速度谱极值的任务。该系统结合了常识规则来区分速度谱中与一次反射相关的波峰和与多次波和噪声相关的波峰。1980年代后期出现的人工智能寒冬,“专家系统”衰退了,油气行业也不例外。20世纪80年代后期,机器学习的自动微分和反向传播工具,开始在地球物理学中得到应用。1991 年麦考马克(McCormack)在 The LeadingEdge 发表题为“地球物理学中的神经计算”一文,首次回顾了地球物理学中新兴的神经网络工具。这篇论文深入到数学细节,并探讨了模式识别。作者总结了回顾前30年的神经网络应用,并提供了在自动测井分析和地震道编辑工作示例。他也指出了神经网络的缺点:缓慢的训练、根据新知识重新训练网络的成本、输出的不精确性、非最佳训练结果,以及神经网络的黑盒特性。20世纪90年代,地球物理领域应用SVM来逼近用于AVO反演的Zoeppritz方程,其性能优于线性反演。2.2.地球物理领域模型驱动与数据驱动地球物理学家利用地震数据进行工作。地震数据可以是2D、3D或4D(描述时间演化)。由于纯粹的体积,地震数据集是最适合先进的机器学习算法,如CNN,它需要大量的数据来充分训练。通过应用机器学习可以解决的地球物理学中的一些问题。地球物理学的一般方法包括数据观测、处理、建模和预测。观测是人类了解未知地球物理现象的重要手段。数据观测主要使用地震波、重力场和遥感等非侵入性技术。数据处理技术,包括去噪和重建,从原始观察中,检索有用信息。基于物理定律的数学建模,有助于描述地球物理现象。基于已知数据和模型预测未知数据。空间预测用于揭示地球内部,例如在勘探地球物理学中对地下的物理特性,进行成像。时间预测提供地球的历史或未来状态,例如天气预报。随着采集设备的进步,地球物理观测数据的数量正以惊人的速度增长。如何利用如此大量的数据进行处理、建模和预测是一个重大问题。由于硬件限制,传统方法存在一个矛盾,即无法同时实现高分辨率和大范围的数据观测。因为地球具有极大的空间和时间尺度,几乎不可能在空间或时间上获得地球的高分辨率模型。为了说明处理和预测中的瓶颈,我们以勘探地球物理学为例。勘探地球物理学旨在利用在地表收集的数据(例如地震场和重力场),来观察地球(或其他行星)的地下。勘探地球物理的主要过程包括预处理和成像,其中成像意味着预测地下结构。在地球物理成像阶段,波动方程是控制地震波传播运动学和动力学的基本工具。声学、弹性或粘弹性波动方程,将越来越多的因素引入波动方程,生成的波场记录可以精确估计真实场景。然而,随着波动方程变得越来越复杂,方程的数值实现变得不容易,并且对于大规模场景的计算成本显着增加。与传统的模型驱动方法不同,机器学习是一种数据驱动方法,它通过基于训练数据集的具有可调参数的复杂非线性映射,来训练回归或分类模型。在模型驱动方法中,从大量观测数据中,基于物理因果关系,利用波动方程、散射、传热方程、麦克斯韦方程、万有引力定律、牛顿运动定律和经验公式等方法,推导出地球物理现象的原理,然后利用模型推断未来或过去的地球物理现象。在数据驱动的方法中,计算机首先引入回归或分类模型,利用神经网络、词典学习、深度学习、GAN、支持向量机、随机森林、聚类等方法,而不考虑物理因果关系,然后,该模型将对输入的数据集执行分类等任务。例.数据驱动方法自组织图(SOM)地震多属性分析自组织映射(Self-organizing map,SOM)是一种802023年3月王宏琳:机器学习在石油工业中的应用:地球科学 油藏工程 生产工程基于神经网络的降维算法,通常用于将高维数据集表示为二维离散模式,在保持原始特征空间中存在的数据的拓扑的同时,实现降维。SOM(如图9)是一种非线性数学方法,可将数据分类为模式或聚类。它是一种采用无监督学习的人工神经网络。SOM不需要先前的信息进行训练,但会评估数据中存在的自然模式和聚类。SOM不同于地震反演。地震反演的目的是将地震反射数据,转化为岩石和流体的性质。这是通过尝试将反射率数据(界面属性)转换为层属性来完成的。大多数反演都需要估计小波和计算从井控和速度信息中获得的低频趋势。如果没有对这些参数进行准确标定,则反演是非唯一的。反演需要来自测井和地震的一组严格的数据条件。几十年来,机器学习从传统方法(例如逻辑回归、支持向量机、随机森林和神经网络)到现代方法(例如深度神经网络和深度生成模型),已广泛应用于各种地球物理应用,例如勘探地球物理、天然地震定位、余震模式分析和地球系统分析。2.3.深度学习在地震勘探中的应用地震勘探是寻找石油、天然气的重要手段。在勘探地震学中,地震方法应用测量地下的弹性性质,并检测这些性质的变化。地下弹性性质的变化和不连续性通常表明岩性或孔隙流体的变化。图10总结了勘探地球物理学的过程:(a)地下结构。地震波在震源处被激发(红点)并向下传播到反射器,然后向上传播直到被接收器记录(蓝点)。(b)是在处理之后的地震记录。(c)地震成像结果,其中线代表反射体。(d)解释地下特性以确定储层的位置。在地球物理学中应用深度学习的最直接方法,是可以将地球物理任务,转移到计算机视觉任务中,例如去噪或分类。然而,在某些地球物理应用中,地球物理任务或数据的特征,与计算机视觉的特征有很大不同。例如,在地球物理学中,我们拥有大量高维数据,但标记的标签很少。勘探地球物理学通过反演地表物理场来对地球的地下进行成像,其中地震波场是最常用的。地震勘探使用反射地震波,来预测地下结构。地震勘探的主要过程包括地震数据的采样与处理(去噪、插值等)、反演(偏移、成像等)和解释(断层检测、相分类等)。下面举几例。图9 SOM结果:SOM突出显示油/水和气/油接触以及碳氢化合物接触上方的储层图10 地球物理勘探过程图11 用于断层检测的神经网络812023年3月石油工业计算机应用例一 断层检测可以将断层检测视为一个二值图像分割问题:0(非断层)和1(断层)。传统的机器视觉通常包括两个步骤:预处理和物体检测。而沟通二者的桥梁则是图像分割。图像分割通过简化或改变图像的表示形式,使得图像更易于分析。然而,相比聪明的人类眼睛,图像分割对计算机来说并不容易。图11是用于3D断层检测的卷积神经网络(U-Net)。为了训练网络,利用自动生成的数百张三维合成地震图像和相应的二值断层标记。在使用合成数据集进行训练后,网络会自动学习,计算出对于断层检测很重要的特征。野外实例表明,神经网络(仅由合成数据集训练),可以比传统方法更准确、更有效地从三维地震图像中预测断层。例二 地震波阻抗反演岩石波阻抗又称波阻抗,指岩石的波速和密度的乘积。由于阻抗可以通过非破坏性方法来确定,因此可以用它研究各种问题。波阻抗通常被认为是传统反演方案中的一个不适定问题。图12表示应用深度学习方法在从地震数据中预测声阻抗方面,由多个残差块(ResBlock)组成的深度卷积神经网络,用于估计阻抗。地震道可以带有或没有初始阻抗的信息。ResBlock由 ConvBlock(卷积块)、批量归一化、ReLU(线性整流函数)和张量求和组成。ResBlock 是现代成功的CNN架构的构建块。现在还发展了多维阻抗深度学习技术。例三 地震相分类图13表示两种深度卷积神经网络进行地震相分类:a)2D基于补丁模型和b)编码器-解码器模型的CNN架构。在基于2D补丁的模型中,每个输入数据实例都是以待分类样本为中心的小块2D地震振幅补丁。相应的输出是整个2D补丁(在本例中为非盐)的类标签,通常指定给中心的样本。在编码器-解码器模型中,每个输入数据实例都是地震幅度的整个纵测线(或横测线/时间片)。对应的输出是每个样本都被分配了一个标签(在本示例情况下,一些样本是盐,而另一些是非盐)。不同类型的层用不同的颜色表示。长方体的大小近似代表每一层的输出大小。比较而言,这两种类型模型在地震相分类中,更常用的是基于补丁的模型,因为在生成标记数据时,需要的工作量要少得多,虽然与解码器模型相比,分类结果次优,预测阶段可能非常耗时。编码器-解码器模型,需要更繁琐的标记数据挑选和更长的训练时间,但是以接近实时的速度预测,产生较优的分类结果。例四 地震成像基于深度学习的“端到端”成像方法,使用记录的数据作为输入,使用速度模型作为输出,这提供了一种完全不同的成像方法,提供了下一代成像方法。图14显示了一个速度反演结果:从上到下是真实速度模型、生成的地震记录和预测速度模型。地球物理成像应用的新挑战,要求采用超越标准和成熟技术的新方法。例如,一种新的地震成像应用工具,是基于最新进展的深度神经网络的应用使用生成式对抗网络。生成式对抗网络(GAN,图12 用于波阻抗预测的神经网络图13 用于地震相分类的两种神经网络822023年3月王宏琳:机器学习在石油工业中的应用:地球科学 油藏工程 生产工程Generative Adversarial Networks)是一种深度学习模型,它在人工智能领域提供了很多潜力。是近年来复杂分布上无监督学习最具前景的方法之一。模型 通 过 框 架 中(至 少)两 个 模 块:生 成 模 型(Generative Model)和 判 别 模 型(DiscriminativeModel)的互相博弈学习产生相当好的输出。图15显示了用于地震数据重建的 GAN 模型示意图。图16展示了从经过训练的 GAN 中获得的一些结果。左列显示了 2D 地震图像,其中一部分被掩蔽以模拟地震图像中的缺失道。中心列显示了通过启用 GAN 的地震插值重建的 2D 地震图像。右列显示原始二维地震图像。每张图像的大小为256256 像素。GAN 执行的地震插值能够重建丢失的轨迹。仔细观察图16第二行中的图像,可以发现 GAN 令人满意地重建了断层,使得重建的图像看起来与原始图像几乎相同。GAN 重建地震图像突出特征的能力,即使在大量地质道丢失的情况下也是如此。如果回顾历史,在20世纪80年代,三维地震永远地改变了地球科学家研究地下结构的方式。在同一十年中,新技术的发明为先进的计算机视觉奠定了基础。地下三维地震成像领域最重要的进展和基本计算机视觉算法的发现,是一个巧合,如何通过将计算机视觉算法应用于地震图像,产生对地球地下结构的洞察。例五 全波形反演的无监督学习全波形反演(FWI)是一种非线性数据拟合过程,旨在从地震数据中获得地下属性的详细估计,这些数据可以是地震勘探采集的结果。给定地下参数的初始猜测,通过求解波动方程来预测(模型)数据。全波形反演(FWI)方法在地球物理学中被广泛应用于从地震数据中估计地下速度图。这个问题用二阶偏微分方程(PDE)数学表示,但很难求解。此外,获取速度图非常昂贵,这使得用卷积神经网络(CNN)来训练从地震数据到速度图的映射是不现实的。通过将PDE和CNN集成在一个循环中来解图14 从原始地震数据中使用 U-Net 预测速度模型(Yang&Ma,2019)图15 用于地震插值的 GAN 示意图图16 GAN地震插值重构地震图像示例图17 集成CNN(学习逆映射)和PDE(偏微分方程的正向建模)832023年3月石油工业计算机应用决这些困难(图17),从而将范式转变为只需要地震数据的无监督学习。特别是利用有限差分近似偏微分方程的正演建模作为可微算子(从速度图到地震数据),并利用CNN对其反演进行建模(从地震数据到速度图)。因此,将有监督的反演任务转化为一个无监督的地震数据重建任务。例六 地震资料解释地震解释(断层、地层、倾角等)或属性分析(阻抗、频率、相等)可用于帮助提取地下地质信息并定位地下甜点。然而,这两项任务都非常耗时,因为需要专家的干预。初步工作表明,深度学习具有提高地震解释或属性分析的效率和准确性的潜力。地震数据解释:解释断层、盐丘和其他感兴趣的结构(图18)以及各种岩相对于从碳封存和储存到储层勘探和开发的许多任务都非常重要。通过机器学习算法实现这种解释的自动化需要经验丰富的解释人员对大量未标记的地震数据进行手动注释,这使其成为一个耗时且费力的过程。为了克服这个瓶颈,正在积极开发弱监督、半监督和无监督机器学习方法,以减轻解释器对手动注释数据的负担。将不确定性纳入网络估计为决策者提供了更多关于网络预测置信度的洞察力。地震解释中的断层、层和倾角的定位类似于计算机视觉中的物体检测。因此,用于图像检测的DNN 可以直接应用于地震解释。然而,与计算机视觉行业不同的是,很难获得公开的