PB级地震数据并行计算系统调优最佳实践摘要:随着地震勘探采集力度加大,地震数据的体量更是达到了新的高度,同时也使得地震数据的处理规模和处理周期线性增长,对软硬件系统设备在计算特征、计算需求、计算性能等方面提出了更高的要求,对资源利用率性能要求也水涨船高。针对这些问题,结合实际生产环境,提出了一套系统化的解决方案,通过地震数据的计算特征,设计开发布控了一套能处理PB级地震数据体量的系统结构和高并行处理模式;在计算需求方面,对系统和软件性能进行了统一优化,提高了资源利用率,整个解决方案不仅能够满足PB级地震数据的高并发的处理需求,还具有良好的经济性、可扩展性,在对实际推广使用大规模集群体系结构有很好的参考价值。关键词:并行计算系统;PB级地震数据;系统调优赵玉梅,程实,郑玉霞,张红杰,王向辉,杜吉国(中国石油东方地球物理勘探有限公司研究院)·开发应用·1引言随着地震数据量急剧增加和专业应用软件的大型化,对数据处理并行化的计算能力要求越来越高,未来更大规模的数据量和高并行处理能力之间的配比会不断攀升,也会不断突破极限,对现有大规模集群的架构会提出更高的要求。本文主要对PB级地震数据处理在大规模集群并行计算的效率提升进行综述,从软件和系统架构等方面,对数据处理的应用性能优化关键核心技术进行研究分析。在大型化应用软件、大规模集群系统和生产项目的资源支持下,用实际的地震数据和生产环境进行压力测试,完成数据库架构和内核参数、系统参数、调度系统的调优;并持续提升大规模集群下数据库和调度等方面的性能,形成一套大规模集群系统和数据库管理的解决方案,以实现在资源统一调度和计算高并行性的最佳配置,从而提高作业的运行效率和设备的使用效能。2PB级地震数据计算特征和系统架构2.1地震数据计算特征数据地震数据的处理规模由TB级提升至PB级甚至未来的EB级,系统架构从单节点多核转到多节点多核,以实现处理能力的扩展。地震数据的计算特征,分为计算密集、数据密集、交互密集三种重要的计算,对大规模集群的架构需求也不一样,对计算能力,传输能力,响应能力侧重点也各不相同。目前地球物理勘探应用系统中,不同应用类型在处理大数据有不同的算特征,在常规地震数据处理过程中,有达上千GB或者TB的作业,有从数据中抽取几十个TB或者GB的数据做参数试验,要求作业总体运行时间短,而用图形化方式显示的地震数据,数据量在几MB到几十MB,要求系统响应短。大数据...