温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
GeoEast
并行
分选
效率
提高
方案
基于GeoEast的并行分选效率提高方案摘要:GeoEast并行分选(PGeoSortIn)在整个处理过程中的应用频率高,并行分选效率直接影响项目处理周期。利用程序解剖与测试相结合的方法,深入理解并行分选工作原理;从计算节点个数、单个节点运行内存、读任务数、计算任务数和文件读写数据块大小等多个方面着手,研究优化资源参数组合及软件配置提高并行分选效率的方法。最终形成了一套适合海量数据的GeoEast系统并行分选效率提高方案。通过在多个生产科研项目中的实际应用取得了理想的效果。关键词:并行分选;运行内存;读任务数;计算任务数;读写数据块大小王君,帅威,龚莉,侯红军,苟正忠(中国石油集团东方地球物理公司)特邀论文 石油工业计算机应用COMPUTER APPLICATIONS OF PETROLEUMMarch.20232023年3月1前言近年来“两宽一高”采集技术广泛应用,地震数据的道密度飞速增长,百万道仪器采集的数据量级已经从TB级激增至PB级。对现有计算机资源和处理技术提出了新的挑战。提高海量地震数据的处理技术应用效率,成为项目运作周期保障的关键。GeoEast 并行分选(PGeoSortIn)负责完成 GeoEast系统海量数据叠前不同道顺序的道集间的数据转换,有效保障后续处理技术的应用。并行分选在整个处理周期中的应用频率高,常常使用5轮以上。为解决海量数据(50TB以上)整体并行分选运行效率低,直接影响项目处理周期的难题,本文从计算节点个数、单个节点运行内存、读任务数、计算任务数和文件读写数据块大小等多个方面着手,研究性价比最优的关键资源参数组合和软件配置,通过优化软件配置、采用性价比最优资源参数组合等多种措施,最终形成了一套适合海量数据的GeoEast系统并行分选效率提高方案。通过在多个生产科研项目中的实际应用,GeoEast系统并行分选的稳定性和效率大幅提高,有效保障了项目运作周期。2 程序介绍地震道按一定顺序存储在磁盘上的。但在地震数据处理过程中,需要不同道顺序的道集,这就需要对地震道进行分选与排序。GeoEast系统并行分选采用多个计算节点同时进行分选排序,该地震道分选方法适用于大数据体。GeoEast 系统并行分选程序包括两个模块:PGeoSortIn和fsort。PGeoSortIn是主模块,运行在并行环境的主节点上,负责把地震数据基本均匀地分发到各个计算节点上,待各个计算节点的分选计算完成后将最终的地震数据回收合并,耗费机时较少。fsort是子模块,运行在并行环境的各个计算节点上,每个计算节点根据分发得到的地震数据信息,读入地震数据并对数据道进行分选计算和排序,耗费机时较多。作业流程编辑器中用户只能编辑含并行分选主模块PGeoSortIn的主作业(如图1),无法单独编辑含每一个子模块fsort的子作业,子作业是由主作业自动生成的。因此,各个子作业除了输入数据范围和输出数据名字不一样,模块的其他参数都是完全一样的。在作业运行结束后的list和log文件中可以见到PGeoSortIn主模块和fsort子模块的作业作者简介:王君(1971-),女,高级工程师,1996年毕业于石油大学计算机应用专业,毕业后一直在东方地球物理公司研究院从事物探软件开发和维护工作。952023年3月石油工业计算机应用运行记录,而且list统计信息是以fsort子模块为主的(如图2)。并行分选程序的作业运行时间取决于fsort子模块运行的最大时间。3 效率提升方案影响 GeoEast 并行分选作业(PGeoSortIn)效率的因素很多:节点、临时盘、数据盘、系统盘、并发度等等。利用模块解剖与测试相结合的方式,深入理解并行分选程序的工作原理。从并行分选程序的运行特征分析(如图3)显示了程序运行过程中CPU利用率变化情况。其中 User%、Sys%、%Idle和%I/Owait分别为用户态、系统调用、空闲态和 I/O 等待占比。可以看出,在程序运行过程中CPU 大部分时刻处于空闲状态,平均值约为 72.3%左右。此外 I/O 等待占比也较高,平均值约为 22.1%左右,说明在程序运行中 I/O 输出是一个持续过程,造成了较大的 CPU 压力。总体来看,CPU 整体利用率不高,主要原因是 I/O 等待占比过高。进一步证实了并行分选属于I/O密集型程序而非计算密集型程序。并行分选程序的整体应用效率主要取决于数据排序(单块排序和整体排序)和数据读写(分发数据和回收数据)快慢。其中,单块排序和整体排序效率受单个节点运行内存值、计算任务数影响大;分发数据和回收数据效率受读、计算任务数及文件读写数据块大小影响大。通过大量的测试试验,研究性价比最优的资源参数组合(单个节点运行内存、读任务数、计算任务数)和最优的文件读写数据块大小值提升并行分选效率。其中:计算节点个数、单个节点运行内存、读任务数和计算任务数都可以由处理人员根据地震数据量大小、计算节点的繁忙程度确定。3.1.1 优化资源参数组合研究性价比最优计算节点个数采用10TB地震数据,在单个节点运行内存、读任务数、计算任务数等参数均相同时,针对不同计算节点个数进行了多组并行分选试验。从测试结果的柱状图上可以看出:在其他资源参数相同的情况下,随着计算节点个数的增大,并行分选时间在减小。但是设备资源有限,仅靠增加计算节点数量提高并行分选效率不是我们的目的;且并行分选效率并非随着计算节点个数的增加而线性提高。(如图4)。对于老旧设备而言,使用的计算节点越多,因节点故障引起的并行分选作业错出的风险也越大。图1 并行分选作业流程和编码参数图2 并行分选作业结束后的list文件图3 并行分选测试CPU利用率情况962023年3月以临时盘剩余容量最小的计算节点为主,用地震数据总量除以临时盘剩余容量确定并行分选所需要使用的最小计算节点个数。3.1.2 优化资源参数组合研究性价比最优运行内存值采用10TB地震数据,在计算节点个数、读任务数、计算任务数等参数均相同时,针对单个节点不同运行内存值进行了多组并行分选试验。从测试结果的柱状图上可以看出:在其他资源参数相同的情况下,随着单个节点运行内存值的增大,并行分选时间在减小。当单个节点运行内存值等于48GB,也就是节点总内存值一半时,并行分选时间值最小。见图(5)。3.1.3 优化资源参数组合研究性价比最优读、计算任务数采用10TB地震数据,在计算节点个数、单个节点运行内存、计算任务数等参数均相同时,针对不同读任务数进行了多组并行分选测试。从测试结果的柱状图中可知:在其他资源参数相同的情况下,随着读任务数的增加,并行分选时间在减小(如图6)。在计算节点个数、单个节点运行内存、读任务数等参数均相同时,针对不同计算任务数进行了多组并行分选测试。从测试结果的柱状图中可知:随着计算任务数的增大,并行分选时间略有增大(如图7)。换言之,单个节点运行内存值一定时,单个计算任务占用的运行内存越大,并行分选时间越小。3.1.4优化资源参数组合效果根据上述的测试分析,建议按如下方案选取资源参数,提高并行分选效率。最优计算节点个数选取最小计算节点个数(由地震数据总量和临时盘剩余容量计算得到的)的1.5-2倍;根据计算节点繁忙程度,最优单个节点运行内存值建议使用节点总内存值的1/3-1/2;根据计算节点繁忙程度及数据盘带宽,最优单节点读任务数建议使用6-12,勿使用1;最优单节点计算任务数建议使用2-4。采用优化后王君,等:基于GeoEast的并行分选效率提高方案图4 10TB数据不同节点个数并行分选测试图5 10TB数据单个节点不同运行内存值并行分选测试图6 10TB数据不同读任务数并行分选测试图7 10TB数据不同计算任务数并行分选测试图8 10TB数据不同资源参数组合并行分选测试972023年3月石油工业计算机应用的资源参数组合,对比资源参数组合使用缺省值时,并行分选效率提高约2.5倍(如图8)。验证了效率提成方案和措施有效。3.2.1 改善软件缺省配置优化文件读写数据块值将本地临时盘和共享数据盘读写数据块由缺省值1MB增大到4MB,并在环境文件中进行配置,从数据盘带宽测试对比可知:读写数据块值增大到4MB后,数据盘带宽大幅提升,达到26GB/S以上,更接近共享数据盘带宽峰值。提高了磁盘数据文件读写效率,最终整体的并行分选效率得到了提高(如表1)和(如图9)。3.2.2改善软件缺省配置效果优化临时盘读写数据块大小和数据盘读写数据块大小的软件配置后,数据盘读写带宽有了大幅度的提升,达到了数据盘带宽峰值的80%,并行分选效率提高了1倍左右(如图10)。验证了效率提成方案和措施有效。4应用效果采用优化后资源参数组合及软件参数配置,完成多个生产科研项目的并行分选的推广应用,进一步验证了方案实施后并行分选效率的提升。数据量从53TB、72TB到98TB不等,并行分选依次用时6.8小时、7.3小时和9.4小时。60节点平均分选效率达到每小时 9.978TB。按此效率推算出1000TB数据60节点1轮并行分选时间约为100小时(如表2)。5结束语本文利用程序解剖与测试相结合的方式,通过研究性价比优化资源参数组合及软件配置,最终形成了一套提高Geoeast 并行 分 选 效 率 的 方 案。较 好 地 解 决 了GeoEast系统超大数据并行分选效率低的问题,为后续PB级项目的运作积累了经验,也为研究院资料处理进入国际高端处理市场进行技术储备。参考文献:1都志辉;高性能计算并行编程技术:MPI并行程序设计;清华大学出版社;2001年.2GeoEast并行分选输入 PGeoSortIn程序使用说明书.3王文义,王春霞;PC集群及其并行程序性能的实用检测方法J;计算机工程与应用;2004年14期.表1 临时盘和数据盘读写数据块值优化前后对比图9 不同读写数据块值数据盘带宽测试对比图10 10TB数据不同资源参数组合并行分选测试表2 不同应用实例并行分选效率98