分享
晶硅分子动力学模拟的GPU加速算法优化_林琳.pdf
下载文档

ID:2717146

大小:1.88MB

页数:8页

格式:PDF

时间:2023-09-17

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
分子 动力学 模拟 GPU 加速 算法 优化 林琳
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程晶硅分子动力学模拟的 GPU加速算法优化林琳1,祝爱琦2,赵明璨2,张帅2,叶炎昊2,徐骥2,韩林3,赵荣彩3,侯超峰2(1.郑州大学 信息工程学院,郑州 450001;2.中国科学院过程工程研究所,北京 100190;3.郑州大学 国家超级计算郑州中心,郑州 450001)摘要:分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了 MD 模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待等问题,结合 Nvidia Tesla V100 GPU 硬件体系结构特点,对晶硅 MD 模拟算法进行设计。通过全局内存的合并访存、循环展开、原子操作等优化方法,利用 GPU 强大并行计算和浮点运算能力,减少显存访问及算法执行过程中的分支冲突和判断指令,提升算法整体计算性能。测试结果表明,优化后的晶硅 MD模拟算法的计算速度相比于优化前提升了 1.691.97 倍,相比于国际上主流的 GPU 加速 MD 模拟软件 HOOMD-blue和 LAMMPS分别提升了 3.203.47倍和 17.4038.04倍,具有较好的模拟加速效果。关键词:分子动力学;图形处理器;合并访存;循环展开;原子操作;性能优化开放科学(资源服务)标志码(OSID):中文引用格式:林琳,祝爱琦,赵明璨,等.晶硅分子动力学模拟的GPU加速算法优化 J.计算机工程,2023,49(4):166-173.英文引用格式:LIN L,ZHU A Q,ZHAO M C,et al.GPU-accelerated algorithm optimization for molecular dynamics simulation of crystalline silicon J.Computer Engineering,2023,49(4):166-173.GPU-Accelerated Algorithm Optimization for Molecular Dynamics Simulation of Crystalline SiliconLIN Lin1,ZHU Aiqi2,ZHAO Mingcan2,ZHANG Shuai2,YE Yanhao2,XU Ji2,HAN Lin3,ZHAO Rongcai3,HOU Chaofeng2(1.School of Information Engineering,Zhengzhou University,Zhengzhou 450001,China;2.Institute of Process Engineering,Chinese Academy of Sciences,Beijing 100190,China;3.National Supercomputing Center in Zhengzhou,Zhengzhou University,Zhengzhou 450001,China)【Abstract】Molecular Dynamics(MD)is one of the main methods used to study the thermodynamic properties of silicon nano-films;however,these studies have problems such as processing massive amounts of data,computational intensity,and complex interatomic interaction,which limit the comprehensive application of MD simulations.To address discontinuities in data access and branch judgments causing the parallel waste of resources and thread waiting in the crystalline silicon MD simulation algorithm,this study combines the characteristics of Nvidia Tesla V100 Graphics Processor Unit(GPU)hardware architecture to design the crystalline silicon MD simulation algorithm.Global memory optimization methods such as coalesced access,loop unrolling,and atomic operation are designed for the MD simulation algorithm.The combination of optimization design and a GPU with powerful parallel and floating-point computing capabilities reduces branch conflicts and judgment instructions during memory access and algorithm execution and improves the overall computing performance of the algorithm.The test results show that the optimized crystal silicon MD simulation algorithm is 1.69-1.97 times faster than the unoptimized algorithm.The optimized algorithm performs 3.20-3.47 and 17.40-38.04 times better than the GPU-accelerated MD simulation software HOOMD-blue and LAMMPS,respectively.The simulations achieve good computation performance.【Key words】Molecular Dynamics(MD);Graphics Processor Unit(GPU);coalesced access;loop unrolling;atomic operation;performance optimizationDOI:10.19678/j.issn.1000-3428.0064457基金项目:国家自然科学基金(21776280,22073103);北京市自然科学基金(JQ21034);河南省重大科技专项(201400211300)。作者简介:林琳(1997),女,硕士研究生,主研方向为分子动力学模拟;祝爱琦、赵明璨、张帅、叶炎昊,博士研究生;徐骥,副研究员、博士;韩林,副教授、博士;赵荣彩,教授、博士;侯超峰(通信作者),副研究员、博士。收稿日期:2022-04-13 修回日期:2022-06-02 Email:先进计算与数据处理文章编号:1000-3428(2023)04-0166-08 文献标志码:A 中图分类号:TP391.9第 49卷 第 4期林琳,祝爱琦,赵明璨,等:晶硅分子动力学模拟的 GPU加速算法优化0概述分子动力学(Molecular Dynamics,MD)模拟是研究纳微系统热力学平衡态和非平衡态过程的主要方法,应用牛顿定律积分来模拟原子运动,包括计算各个原子的受力、更新原子位置与速度等信息,最终结合统计物理研究体系的热力学物理性质1。MD模拟能够细致刻画原子振动周期内的微观过程,已成为研究诸如硅等半导体介电材料及低维纳米结构导热性质的主要手段。目前,在晶硅半导体材料的MD 模拟中,原子间作用势函数经常采用多体势2,由于原子数目多、计算密集、原子间作用力复杂,因此需要处理巨量的计算负载3-5。近年来,随着异构计算系统的兴起,利用图形处理器(Graphics Processing Unit,GPU)进行大规模高性能计算展现出了巨大的行业发展潜力。通过大量线程的集中并行计算和高速的存储带宽,GPU 相比中央处理器(Central Processing Unit,CPU)呈现出更高的峰值计算能力6-7。MD 模拟中多体原子间作用力的计算具有计算密集的特征,同时作为该模拟算法的核心部分,对于数亿原子规模以上的处理计算量巨大。因此,基于 GPU 的高性能计算将提供一种有效的解决方案。当前,LAMMPS8、HOOMD-blue9、NAMD10、GROMACS11等多个国际上主要的 MD 模拟软件均支 持 GPU 加 速 计 算12。晶 硅 MD 模 拟 采 用 多 体Tersoff13势函数描述 Si-Si原子之间的作用力,多体Tersoff 势函数的力求解是晶硅 MD 模拟算法的核心。目前,关于面向 GPU的 MD模拟的优化工作,国内外已针对其算法、内存读取等方面进行了设计。例如:文献 6 阐述了访存效率、硬件资源特征对性能的影响及优化方式;文献 2-3 介绍内存资源利用率、算法设计的优化方式;文献 14 针对软件缓存和最小化主存储器访问进行优化设计。本文针对晶硅分子动力学模拟中计算负载量大的问题,利用具有强大并行计算能力和高浮点性能的图形处理器,对晶硅 MD 模拟算法进行性能优化。利用合并访存的优化方法,改进 GPU 加速算法的访存效率和计算吞吐量。采用循环展开的优化方法,提高 GPU 并行计算资源利用率。通过原子操作以减少显存访问,提高算法整体计算效率。1算法原理与实现分子动力学模拟采用Tersoff势函数描述晶硅的原子间作用。算法实现包括硅原子邻居列表的建立、原子势能与力的计算、原子位置与速度的更新计算等过程。1.1Tersoff势函数Tersoff 势函数从量子力学理论出发,基于共价键体系中键级与周围原子环境的关系,建立的一种原子间多体相互作用势模型。该类势函数能较好地描述晶硅原子间的作用力,主要包括 T115、T216、T3133个模型。本文主要面向晶体硅的热传递和热物性的变化,采用 T3势函数来模拟晶体硅。T3势函数的数学模型13如式(1)所示:E=iEi=12i=1Nj iVij(1)其中:E为体系总势能;Ei为原子 i的位置势能;Vij为原子 i与原子 j之间的相互作用能。Vij的表达式如下:Vij=fc(rij)fR(rij)+bijfA(rij)(2)其中:rij是原子 i与 j之间的键长;fc是截断函数,随着原 子 间 距 离 的 增 大 逐 渐 减 弱 降 低 为 0,表 达 式 如式(3)所示;R、S是截断半径;fR是排斥项对势,fA是吸引项对势,表达式分别如式(4)和式(5)所示;bij反映了原子间的多体作用,表达式如式(6)所示。fc(r)=|1,rij Rij12+12cos|(rij-Rij)Sij-Rij,Rij rij Sij 0,rij Sij(3)fR(r)=A exp(-1r)(4)fA(r)=-B exp(-2r)(5)bij=(1+nnij)-0.5/n(6)其中:为键级系数;ij描述了原子 i与周围原子间的角势能,表达式如式(7)所示;c、d、h 为常量系数;ijk为 rij与 rik之间的键角,表达式如式(8)所示。ij=k jfC(rik)g(ijk)(7)g()=1+c2d2-c2d2+(h-cos ijk)2(8)部分常量参数的值如表 1所示。1.2晶硅 MD模拟算法异构实现NVIDIA Tesla V100

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开