温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
机器
学习
函数
原子
模拟
软件
开发
应用
商城
第 51 卷第 2 期 2023 年 2 月 硅 酸 盐 学 报 Vol.51,No.2 February,2023 JOURNAL OF THE CHINESE CERAMIC SOCIETY http:/ DOI:10.14062/j.issn.0454-5648.20220824 基于机器学习势函数的原子模拟软件的开发及应用 商 城,康沛林,刘智攀(复旦大学化学系,上海 200433)摘 要:近年来,基于机器学习的大规模原子模拟技术的发展为许多化学分支的发展带来了巨大的希望。这些模拟具有高速度和高精度的特点。本文概述了基于机器学习势函数的原子模拟的 3 个关键方面的最新进展,即机器学习模型和结构描述子的开发,全局势能面训练集的生成,以及基于主动学习的势函数自动训练。研究表明,最近设计的指数型结构描述子和前馈神经网络模型非常适合生成高度复杂的全局势能面。通过神经网络势函数在材料和反应模拟中的 2 个最新应用来说明基于机器学习势函数的原子模拟如何有助于发现新材料和反应。关键词:机器学习;势函数;全局势能面;原子模拟软件 中图分类号:O6 文献标志码:A 文章编号:04545648(2023)02047612 网络出版时间:2022-12-27 Development and Application of Atomic Simulation Software Based on Machine Learning Potentials SHANG Cheng,KANG Peilin,LIU Zhipan(Department of Chemistry,Fudan University,Shanghai 200433,China)Abstract:Recent development of large-scale atomic simulation techniques based on machine learning has brought a great promise in chemistry.These simulations are featured by both high speed and high accuracy.This review outlined recent development on three key aspects of atomic simulation based on machine learning potential,i.e.,machine learning models and structure descriptors,generation of global potential energy surface training sets,and automatic training of potential functions based on active learning.It is indicated that the designed structure descriptor and feedforward neural network model are suitable for generating a highly complex global potential energy surface.In addition,the applications of LASP software in material and reaction simulations were also selected to illustrate how ML-based atomic simulation could assist the discovery of novel materials and reactions.Keywords:machine learning;potential;global potential energy surface;atomic simulation software 1 机器学习辅助原子模拟在化学与材料领域中的机遇与挑战 针对材料和化学反应的模拟,一直是化学研究的前沿问题。其中最具挑战的问题是如何在复杂度化学环境中处理结构中的化学键演化,比如催化材料表界面发生的化学反应,以及不同材料在界面处形成的异质结结构等。在过去很长的一段时间里,对这些问题的研究只能通过基于量子力学1-3的分子动力学模拟来实现。通过手动建立的原子模型,在超级计算机上求解 Schordinger 方程,获得模型所对应的精确能量以及能量梯度,并根据 Newton力学对结构随时间进行演化。虽然当代科技的发展已经使得计算机的计算能力获得了飞跃,然而量子 收稿日期:20221001。修订日期:20221013。基金项目:国家重点研发计划(2018YFA0208600);国家自然科学基金(12188101,22033003,91945301,91745201,92145302,22122301 和 92061112)。第一作者:商 城(1985),男,博士,教授。Received date:20221001.Revised date:20221013.First author:SHANG Cheng(1985),male,Ph.D.,Professor.E-mail: 综 合 评 述 第 51 卷第 2 期 商 城 等:基于机器学习势函数的原子模拟软件的开发及应用 477 力学计算受到方法本身等的限制,对所研究的体系依然具有时间和空间尺度上的限制,通常仅能对亚纳米(约 100 个原子)在皮秒级别进行模拟4。这与化学合成通常所需的秒级甚至小时级的反应时间,以及合成材料一般能达到的几十纳米至微米级的尺寸依然具有数量级的差别。因此,完全依赖量子力学计算的原子模拟很难实现接近真实反应条件的原子模拟,而如何在计算误差可控的前提下提高原子模拟的体系规模,并快速对构象空间进行广泛采样的也成为理论化学家一直以来追求的目标。随着深度学习方法和 GPU 硬件的发展,人工智能技术在最近几年得到了飞速的发展5,并逐渐应用于各个研究领域,其中就包括针对化学反应与材料结构的理论模拟。现代机器学习技术用于原子模拟最早可以追溯到 20 世纪 90 年代,针对具有有限自由度的小分子体系的势能面构建67,其中机器学习技术主要是基于神经网络模型,被用于拟合基于量子力学计算的势能面数据集,形成机器学习势函数,用于快速势能面搜索。与传统的经验分子立场相比,机器学习势函数具有更为复杂的数学函数形式和更高维度的参数空间,并因此实现了传统力场难以达到的能够恰当描述化学过程的计算精度。然而,将这一方法推广至大规模原子模拟的过程却并不是一帆风顺,其最主要的制约因素是难以获得高质量的量子力学势能面数据集827。与量子力学计算中通过求解 Schordinger 方程获得高精度的势能面不同,基于机器学习势函数依赖于通过对高质量的势能面数据集进行学习才有可能得到较高的高精度。作为第 1 步的数据集产生,其实是整个流程当中最耗费计算资源的一步,解决这一问题的关键则是设计高效的势能面采样方法来生成具有代表性和紧凑性的势能面数据集。高效势能面搜索方法因此在基于机器学习的原子模拟方法中扮演着至关重要的作用,它一方面直接决定了模拟过程在有限的时间内能够探索的构象空间的范围,以及发现关键结构及过程的能力,另一方面,作为产生机器学习数据集结构的重要手段,也决定了机器学习势函数的可靠性和使用场景的广泛性。一旦建立了数据集,就可以利用势能面数据集的定量信息(结构坐标、总能量和原子力),来训练机器学习模型,这一过程属于有监督机器学习的标准过程。训练样本的大小和质量决定了有监督学习在产生机器学习潜能方面的效率。一般来说,机器学习单纯学习训练集中的信息,但对训练数据的质量一无所知,因此可以称之为被动学习。传统的被动监督学习往往需要人工设置采样参数,分析训练数据的质量,添加所需的新数据。这样生成的训练集可能包含大量冗余信息,比如构型相似的结构。这不仅浪费了量子力学计算,而且由于数据集分布不均,容易导致过拟合。为了克服被动监督学习这一主要缺陷,目前的机器学习势函数主要通过主动学习产生2830。主动学习方法整合了通过迭代的方式逐步改进机器学习模型。它从有限数量的标记训练样本开始,然后迭代执行机器学习模型训练,运用阶段性的机器学习势函数进行原子模拟,产生新的数据,并根据一些预定义的数据选择规则追加标记训练数据集,直到满足停止条件。本文从机器学习模型、原子模拟产生训练集、势函数主动学习方法等 3 个方面对机器学习原子模拟的进展进行了简单概述,并着重介绍了本小组开发的基于神经网络势函数的大规模原子模拟软件(LASP)27及其主要功能随机势能面行走全局优化神经网络势(SSW-NN)方法2021。该软件实现了势能面数据的生成、神经网络势函数的训练和基于势函数的原子模拟。运用 LASP 软件,通过自动的全局搜索方法进行全局势能面采样,建立了大量的全局神经网络(G-NN)势20,涵盖了元素周期表中的大量元素并广泛应用于包括非均相催化,揭示有机反应网络等大规模原子模拟中。2 机器学习模型和结构描述子 为了保证良好的机器学习潜力,机器学习模型的设计及其输入(结构描述符)的选择必须遵守 2 条基本规则:1)体系大小不变性。机器学习模型需要保持灵活性,以准确描述从分子体系到固体等不同大小的体系。结构的超胞(原子数的增加)不应改变每个原子的能量;2)结构描述符的连续性。为了获得具有高数值的原子力,机器学习模型的输入应该是连续的,并且可以相对于原子坐标解析求导。受这 2 个规则的限制,机器学习模型采用与体系大小无关的局部结构信息作为输入;它们的结构描述符保持了对体系的平移、旋转和置换不变性,以生成连续可导的势能面。上述 2 个基本规则自 20 世纪 60 年代以来发展起来的经验力场方法就已经满足31,研究者们将总能量分解为两体(键)、三体(角)和四体(二面角)项等。然而这些内部坐标通常为短程描述符,无法描述晶体材料。另一方面这些函数形式也不够复杂,无法 478 硅酸盐学报 J Chin Ceram Soc,2023,51(2):476487 2023 年 模拟化学反应过程。Behler 和 Parrinello 等提出了原子能量框架的高维神经网络体系结构(HDNN)8以解决实际应用中体系大小变化的需求,其中体系总能量被表示为单原子能量的加和。而单原子能量由原子周围的化学环境决定,通过将一组结构描述符 Di表示的局部化学环境信息与总能量相关联,可以使用前馈神经网络对原子能量进行训练。每个 Di都是一个原子中心对称函数(ACSF),它是一系列两体径向和三体角向函数的求和形式(图 1)。此后,研究者们提出了许多机器学习的模型,如高斯过程回归(GPR)1314,3233和核方法脊回归(KRR)25,支持向量机(SVM)3435和谱邻域分析势(SNAP)36等。这些方法中基于核函数和基于神经网络的势函数应用较多。相比较而言,基于核函数的模型所需的参数量远小于神经网络模型,也因此更容易训练。然而由于核函数方法中,运算代价随训练集呈 n3增长(n 为训练集大小),因此核函数模型严重受限于训练集大小。总体而言,神经网络模型仍是目前势函数中使用最为广泛的模型,而这些神经网络模型几乎无一例外地采用了HDNN 的基本原理。相比之下,局部化学环境有许多可替代的表示方法,如 Behler 和 Parrinello提出的高斯型原子中心对称函数(ACSF)89、在Deep Potential 中使用的基于原子间两体距离的卷积神经网络架构3738,基于图网络的 MPNN39自学习描述符4041,基于高斯型轨道密度向量结构描述符42等。对于这些模型与描述符之间的比较,可以参考最近的一些综述性文献28,43-46。Left:the vector Di is built from a series of element