温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
大规模
结构
网格
数据
相关性
统计
建模
量化
方法
杨阳
大规模结构网格数据的相关性统计建模轻量化方法杨阳1武昱1汪云海2曹轶1,31(北京应用物理与计算数学研究所北京100094)2(山东大学计算机科学与技术学院山东青岛266237)3(中物院高性能数值模拟软件中心北京100088)()Correlation Statistical Modeling Reduction Method for Large-Scale Structural GridDataYangYang1,WuYu1,WangYunhai2,andCaoYi1,31(Institute of Applied Physics and Computational Mathematics,Beijing 100094)2(School of Computer Science and Technology,Shandong University,Qingdao,Shandong 266237)3(CAEP Software Center for High Performance Numerical Simulation,Beijing 100088)AbstractDatavisualanalysisisessentialforlarge-scalenumericalsimulations.Thestoragebottleneckofhigh-performancecomputersmakesitchallengingtoanalyzeandvisualizedatawithoriginalhigh-resolution.Themethodbasedonstatisticalmodelingcansignificantlyreducethedatastoragecost,withthereconstructionuncertaintybeinghigh.Therefore,weproposealarge-scaledatareductionmethodforefficientanalysisandvisualizinglarge-scalemulti-blockvolumedatageneratedbymassivelyparallelscientificsimulations.Thetechnicalcoreofthismethodistoguidethe statistical modeling of adjacent data blocks through the statistical representation of correlation between datablocks.Bydoingso,ourmethodefficientlypreservesthestatisticaldatapropertieswithoutmergingdatablocksstoredin different parallel computing nodes and repartitioning them according to the homogeneity requirements of thevisualization.Comparedwithexsitingmethods,theoriginaldatacanbereconstructedmoreaccuratelybycouplingnumericaldistributioninformation,spatialdistributioninformation,andcorrelationinformation,furtherreducingthevisualuncertainty.Theexperimentaltestsusefivesetsofscientificdatawiththelargestscaleofonebilliongrids.Thequantitativeanalysisresultsshowthatourmethodimprovesthedatareconstructionaccuracybyuptotwoordersofmagnitudeatthesamedatacompressionratiocomparedwiththecurrentstate-of-the-artmethods.Key wordsdatareduction;massivelyparallelscientificsimulation;large-scalemulti-blockvolumedata;correlationstatisticalmodeling;scientificvisualization摘要高置信度的数据可视分析对于大规模数值模拟至关重要,但是当前高性能计算机的存储瓶颈导致可视分析应用获取原始高分辨率网格数据越来越困难.基于统计建模的方法能够极大降低高分辨数据存储成本,但是重建数据的不确定性高.为此,提出了一种大规模结构网格数据的相关性统计建模轻量化方法,用于对并行数值模拟生成的大规模多块体数据进行高效分析与可视化.该方法的技术核心是通过数据块间的统计相关性,指导邻接数据块的统计建模,从而有效地保留数据统计特征,且不需要对不同并行计算节点中的数据块进行合并与重新分块.通过耦合数据块的数值分布信息、空间分布信息和相关性收稿日期:2021-11-30;修回日期:2022-04-24基金项目:中国博士后科学基金项目(2021M700016)ThisworkwassupportedbytheChinaPostdoctoralScienceFoundation(2021M700016).通信作者:曹轶(cao_)计 算 机 研 究 与 发 展DOI:10.7544/issn1000-1239.202111208JournalofComputerResearchandDevelopment60(3):676689,2023信息,该方法可以更精确地重建原始数据,降低可视化的不确定性.实验测试采用了最大 10 亿网格规模的 5 组科学数据,定量分析结果显示,在相同数据压缩比下,该方法相比现有方法可将数据重建精度最大提升近 2 个数量级.关键词数据轻量化;大规模并行科学模拟;大规模多块体数据;相关性统计建模;科学可视化中图法分类号TP391大规模数值模拟是科学发现与工程设计不可或缺的关键手段,高置信度的数据可视分析对大规模数值模拟至关重要1.随着高性能计算机的峰值性能的快速提升,为了精细模拟所研究问题的复杂特征,以尽可能高的计算效率将计算能力集中在问题的最关键部分,科学家常采用如图 1 所示的非均匀分解的自适应网格,导致大规模多块数据的生成.然而,硬件存储瓶颈导致可视分析应用获取原始高分辨率数据越来越困难2,大规模数值模拟应用先保存原始计算结果再进行事后可视分析的可行性不断降低.因此,数据约减势在必行.(a)基于块的自适应网格(b)基于树的自适应网格Fig.1Adaptivemeshrefinement图1自适应网格基于统计建模的数据轻量化方法3-8是一种主流的数据约减方法,它采用紧凑型的分布数据表达,替代传统的 3 维网格数据表达,可以实现数值模拟数据规模的大幅约减,便于高效的事后可视分析9-14.常用的分布数据表达有直方图(histogram)和高斯混合模型(Gaussianmixturemodel,GMM)15-17.然而,基于统计建模的数据轻量化方法的重建精度低,可视化不确定性高.主要原因是此类方法与数值并行区域分解策略产生的多块拼接网格数据的不适配性.因此,此类方法通常需要首先对原有的多块拼接网格数据进行合并;然后根据可视化的同质性需求,采用更适合可视分析方法的区域分解策略对合并数据进行重分,保证单块网格数据具有较小的数值梯度;最后,采用统计分布模型对每个数据块进行特征建模和可视分析.在大规模数值模拟场景下,这种建模方法会引起性能瓶颈和建模不确定 2方面的问题18.首先,数据合并与数据重分,将引起全局数据通信和高性能计算机节点间的大量数据迁移,导致显著的性能瓶颈问题.其次,不恰当的区域分解策略或统计分布模型,均会导致数据统计特征的丢失,进而增加可视分析的不确定性.能够适配数值并行区域分解策略的高精度统计建模与可视分析方法,仍有待开展研究.为此,本文提出了一种大规模结构网格数据的相关性统计建模轻量化方法,其创新点有 2 个方面:1)提出了一种数据块间的相关性统计建模方法.在计算各单块网格数据的数值分布和空间分布后,利用信息熵与互信息表征数据块间的相关性,指导邻接数据块的统计建模.该方法通过耦合数据块的数值分布信息、空间分布信息和相关性信息,能够显著提升重建精度,降低可视化的不确定性.2)本文方法保持初始数据分块不变,不需要对原始数据进行全局合并与重分,从而显著减少不同并行计算节点间的通信开销,降低计算成本.实验结果表明,与现有方法相比,本文方法节省了数据合并与重分的计算成本,在获得更高重建精度的同时,将数据存储成本降低了约 1 个数量级.1相关工作 1.1网格数据压缩编码方法压缩编码是传统常用的网格数据约减方法,分为无损和有损 2 种压缩策略,但它很难适用于具有浮点数特征的数值模拟数据.例如,采用行程编码19-20、bZIP21等无损压缩算法,很难将数据压缩比提升到一个数量级.有损压缩则是相对有效的科学数据压缩途径.例如,几何驱动的静态有损压缩方法,它涉及网格顶点位置量化、预测、熵编码 3 个主要处理阶段22.面向不断增大的数据规模,渐近网格压缩方法逐渐成为研究热点,衍生出基于八叉树的渐近编码23、小波编码24、几何图像编码25等相关研究.但是,有损压缩算法无法在较大数据压缩比的前提下,同时高精度地保留原始高分辨数据的物理特征.1.2特征提取方法特征提取方法使用特征数据替代原始数据场,从而实现数据轻量化.物理特征的定义形式包括等值面、流线、条纹线、矢量场拓扑、涡管、裂缝、断层杨阳等:大规模结构网格数据的相关性统计建模轻量化方法677线等.针对 3 维数据场,目前通常采用“基于 iso-value指定的等值数据范围”和“基于体绘制传递函数指定的不透明度到数值范围的映射”等方法进行空间特征提取.Tzeng 等人26使用标量值、梯度值和空间位置坐标训练传递函数,用于数据特征识别.Kindlmann等人27利用曲面曲率对数据样本进行特征分类.Tenginakai 等人28通过邻域统计信息定义数据等值面特征.Hladuvka 等人29-30借助等值面实现数据特征分离.但是,上述特征提取方法均依赖个性化特征定义,其普适性弱.1.3基于统计建模的数据轻量化方法基于统计建模的数据轻量化方法,是目前有望解决大规模数据存储瓶颈的一种最新数据约减途径.它采用紧凑的分布数据表达,可以极大降低高分辨数据存储量,同时还能较好地保持数据蕴含的物理特征.Thompson 等人15使用直方图近似表示网格数据等值面.Wei 等人13提出了一种基于直方图的有效算法来搜索数据局部区域的相似分布.Liu 等人16和Dutta 等人17则使用 GMM 对数据信息进行紧凑表达.然而这类方法的一个关键缺点是,其忽略了数据的空间分布信息,并最终导致基于统计建模方法的重建数据精度低,不确定性高.针对这一问题,Wang等人31提出了一种基于空间分布的数据轻量化方法,它使用直方图建模数值信息,GMM 建模空间分布信息,利用贝叶斯准则结合这 2 类分布模型,最终显著提升重建数据精度.然而,受限于大规模数值模拟复杂的并行特征,文献 13,1517,31 所述的轻量化方法无法直接适配多块拼接网格数据.因此,在大规模数值模拟场景下,这些方法势必会引起性能和建模不确定 2 方面的问题.1.4相关性建模方法现有的统计可视分析方法难以适应多块拼接数值模拟数据,无法在数据块的邻域边界保持重建精度.为此,近几年出现了相关性建模方法,它引入数据相关性来提升统计分布建模的精度.Dutta 等人18提出了一种基于数据固有空间