基于GeoEast的并行分选效率提高方案摘要:GeoEast并行分选(PGeoSortIn)在整个处理过程中的应用频率高,并行分选效率直接影响项目处理周期。利用程序解剖与测试相结合的方法,深入理解并行分选工作原理;从计算节点个数、单个节点运行内存、读任务数、计算任务数和文件读写数据块大小等多个方面着手,研究优化资源参数组合及软件配置提高并行分选效率的方法。最终形成了一套适合海量数据的GeoEast系统并行分选效率提高方案。通过在多个生产科研项目中的实际应用取得了理想的效果。关键词:并行分选;运行内存;读任务数;计算任务数;读写数据块大小王君,帅威,龚莉,侯红军,苟正忠(中国石油集团东方地球物理公司)·特邀论文·石油工业计算机应用COMPUTERAPPLICATIONSOFPETROLEUMMarch.20232023年3月1前言近年来“两宽一高”采集技术广泛应用,地震数据的道密度飞速增长,百万道仪器采集的数据量级已经从TB级激增至PB级。对现有计算机资源和处理技术提出了新的挑战。提高海量地震数据的处理技术应用效率,成为项目运作周期保障的关键。GeoEast并行分选(PGeoSortIn)负责完成GeoEast系统海量数据叠前不同道顺序的道集间的数据转换,有效保障后续处理技术的应用。并行分选在整个处理周期中的应用频率高,常常使用5轮以上。为解决海量数据(50TB以上)整体并行分选运行效率低,直接影响项目处理周期的难题,本文从计算节点个数、单个节点运行内存、读任务数、计算任务数和文件读写数据块大小等多个方面着手,研究性价比最优的关键资源参数组合和软件配置,通过优化软件配置、采用性价比最优资源参数组合等多种措施,最终形成了一套适合海量数据的GeoEast系统并行分选效率提高方案。通过在多个生产科研项目中的实际应用,GeoEast系统并行分选的稳定性和效率大幅提高,有效保障了项目运作周期。2程序介绍地震道按一定顺序存储在磁盘上的。但在地震数据处理过程中,需要不同道顺序的道集,这就需要对地震道进行分选与排序。GeoEast系统并行分选采用多个计算节点同时进行分选排序,该地震道分选方法适用于大数据体。GeoEast系统并行分选程序包括两个模块:PGeoSortIn和fsort。PGeoSortIn是主模块,运行在并行环境的主节点上,负责把地震数据基本均匀地分发到各个计算节点上,待各个计算节点的分选计算完成后将最终的地震数据回收合并,耗费机时较少。fsort是子模块,运行在并行环境的各个计算节点上,每个计算节点根据分发得到的地震数据信息,读入...