2023⁃03⁃10计算机应用,JournalofComputerApplications2023,43(3):759-766ISSN1001⁃9081CODENJYIIDUhttp://www.joca.cn基于HBase的工业时序大数据分布式存储性能优化策略杨力,陈建廷,向阳*(同济大学电子与信息工程学院,上海201804)(∗通信作者电子邮箱2130780@tongji.edu.cn)摘要:在自动化的工业场景中,大量工业设备产生的时序性日志数据量呈爆炸式增长,业务场景对时序数据的访问需求进一步提升。虽然目前基于分布式列族的数据库HBase能够存储工业时序大数据,但由于未考虑特定业务场景中数据与访问行为特征的关联,现有策略无法较好地满足工业时序数据的特定访问需求。针对上述问题,基于分布式存储系统HBase,利用工业场景中数据与访问行为特征的关联性,提出面向海量工业时序数据的分布式存储性能优化策略。针对工业时序数据特点引发的负载倾斜问题,提出基于冷热数据分区及访问行为分类的负载均衡优化策略。使用逻辑回归模型(LR)对数据进行冷热分类,并将热数据分散存储在不同节点;同时,为进一步降低存储集群中跨节点的通信开销,以提升工业时序数据高维索引的查询效率,提出索引主数据同Region化策略,设计索引RowKey字段及拼接规则,将索引存放到与它对应的主数据相同的Region中。在真实工业时序数据上的实验结果表明,引入优化策略后的数据负载分布倾斜度降低28.5%,查询效率提升27.7%,验证了所提优化策略能够有效地挖掘特定时序数据的访问模式,合理地分配负载,降低数据访问开销,有能力满足对特定时序大数据的访问需求。关键词:分布式存储;时序大数据;工业大数据;负载均衡;HBase中图分类号:TP311文献标志码:APerformanceoptimizationstrategyofdistributedstorageforindustrialtimeseriesbigdatabasedonHBaseYANGLi,CHENJianting,XIANGYang*(CollegeofElectronicandInformationEngineering,TongjiUniversity,Shanghai201804,China)Abstract:Inautomatedindustrialscenarios,theamountoftimeserieslogdatageneratedbyalargenumberofindustrialdeviceshasexploded,andthedemandforaccesstotimeseriesdatainbusinessscenarioshasfurtherincreased.AlthoughHBase,adistributedcolumnfamilydatabase,canstoreindustrialtimeseriesbigdata,theexistingstrategiescannotmeetthespecificaccessrequirementsofindustrialtimeseriesdatawellbecausethecorrelationbetweendataandaccessbehaviorcharacteristic...