基于HBase的工业时序大数据分布式存储性能优化策略_杨力 (1).pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 1.74 MB
约8页
2023-05-10
收藏
评论
点赞(0)
海报
举报

基于HBase的工业时序大数据分布式存储性能优化策略_杨力 (1).pdf_第1页

基于HBase的工业时序大数据分布式存储性能优化策略_杨力 (1).pdf_第2页

基于HBase的工业时序大数据分布式存储性能优化策略_杨力 (1).pdf_第3页

2023⁃03⁃10计算机应用,JournalofComputerApplications2023,43(3):759-766ISSN1001⁃9081CODENJYIIDUhttp：//www.joca.cn基于HBase的工业时序大数据分布式存储性能优化策略杨力，陈建廷，向阳*（同济大学电子与信息工程学院，上海201804）（∗通信作者电子邮箱2130780@tongji.edu.cn）摘要：在自动化的工业场景中，大量工业设备产生的时序性日志数据量呈爆炸式增长，业务场景对时序数据的访问需求进一步提升。虽然目前基于分布式列族的数据库HBase能够存储工业时序大数据，但由于未考虑特定业务场景中数据与访问行为特征的关联，现有策略无法较好地满足工业时序数据的特定访问需求。针对上述问题，基于分布式存储系统HBase，利用工业场景中数据与访问行为特征的关联性，提出面向海量工业时序数据的分布式存储性能优化策略。针对工业时序数据特点引发的负载倾斜问题，提出基于冷热数据分区及访问行为分类的负载均衡优化策略。使用逻辑回归模型（LR）对数据进行冷热分类，并将热数据分散存储在不同节点；同时，为进一步降低存储集群中跨节点的通信开销，以提升工业时序数据高维索引的查询效率，提出索引主数据同Region化策略，设计索引RowKey字段及拼接规则，将索引存放到与它对应的主数据相同的Region中。在真实工业时序数据上的实验结果表明，引入优化策略后的数据负载分布倾斜度降低28.5%，查询效率提升27.7%，验证了所提优化策略能够有效地挖掘特定时序数据的访问模式，合理地分配负载，降低数据访问开销，有能力满足对特定时序大数据的访问需求。关键词：分布式存储；时序大数据；工业大数据；负载均衡；HBase中图分类号：TP311文献标志码：APerformanceoptimizationstrategyofdistributedstorageforindustrialtimeseriesbigdatabasedonHBaseYANGLi，CHENJianting，XIANGYang*（CollegeofElectronicandInformationEngineering，TongjiUniversity，Shanghai201804，China）Abstract:Inautomatedindustrialscenarios，theamountoftimeserieslogdatageneratedbyalargenumberofindustrialdeviceshasexploded，andthedemandforaccesstotimeseriesdatainbusinessscenarioshasfurtherincreased.AlthoughHBase，adistributedcolumnfamilydatabase，canstoreindustrialtimeseriesbigdata，theexistingstrategiescannotmeetthespecificaccessrequirementsofindustrialtimeseriesdatawellbecausethecorrelationbetweendataandaccessbehaviorcharacteristic...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容