分享
一种面向多源高频强时序的数据集分析系统_陈雪梅.pdf
下载文档

ID:2728088

大小:1.48MB

页数:5页

格式:PDF

时间:2023-10-13

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种 面向 高频 时序 数据 分析 系统 陈雪梅
数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering250参考文献1 秦记峰,任东海.人工智能课程实践教学改革探讨和研究 J.计算机教育,2019(10):12-15.2 王海涛,宋文,王辉.一种基于 LSTM 和 CNN 混合模型的文本分类方法 J.小型微型计算机系统,2020,41(06):1163-1168.3 路遥,任晓霞,侯静,等.新形势下高校网站群建设与服务管理探究以北京大学为例 J.实验技术与理,2020,37(9):32-34.4 侯静,邓可君,刘福东.CMS 在高校网站群建设中的应用 J.实验技术与管理,2011,28(04):220-222.5 黄春梅,王松磊.基于词袋模型和 TF-IDF 的短文本分类研究 J.软件工程,2020,23(03):1-3.6 蒙梅.面向网络教育新闻文本的区域分类方法研究 D.西安理工大学,2019.7 曾小芹.基于 Python 的中文结巴分词技术实现 J.信息与电脑(理论版),2019,31(18):38-39+42.8 唐琳,郭崇慧,陈静锋.中文分词技术研究综述J.数据分析与知识发现,2020,4(Z1):1-17.9 黄春梅,王松磊.基于词袋模型和 TF-IDF 的短文本分类研究 J.软件工程,2020,23(03):1-3.10 张小川,于旭庭,张宜浩.一种改进的向量空间模型的文本表示算法 J.重庆理工大学学报(自然科学),2017,31(01):87-92.11 张扬武,李国和,王立梅,等.一种基于 PCA 的文本特征混合选择方法 J.计算机应用与软件,2019,36(10):23-29.作者简介李凯(1989-),男,湖北省武汉市人。硕士学位,工程师。研究方向为信息系统开发与管理等。毛文卉(1991-),女,湖北省武汉市人。硕士学位,工程师。研究方向为大数据管理等。孙晶晶(1991-),女,湖北省武汉市人。硕士学位,工程师。研究方向为云计算等。刘雅琴(1987-),女,湖北省武汉市人。硕士学位,工程师。研究方向为信息系统开发与管理等。吴驰(1976-)(通讯作者),男,湖北省武汉市人。硕士学位,高级工程师。研究方向为信息化管理。随着信息化技术的迅猛发展、硬件技术的革新以及软件技术的日新月异,逐渐产生越来越多的海量数据,而数据标签也随之出现了高频、强时序、多源等特点。高频数据指数据采样间隔短,本文提及的高频数据其采样周期在百微妙级别。时序性数据1是指既关注不同事件的先后次序关系,又关注不同事件之间的时间间隔。强时序性数据即表明对不同事件的先后次序以及事件之间的间隔精确度有较高要求。多源数据是指数据来源多样化,数据维度多样化。复杂场景下无人机群作业时,往往涉及到多端、多源、多目标数据的情况,需要处理的数据也随着日益丰富的载荷类型、链路类型、飞机类型等变得更加复杂,而每种设备的数据在整体系统中都一种面向多源高频强时序的数据集分析系统陈雪梅娄尚郗小鹏王泓淼(天津航天中为数据系统科技有限公司、天津市智能遥感信息处理技术企业重点实验室 天津市 330301)摘要:本文针对复杂场景下无人机群作业,涉及业务系统多,数据维度多,数据实时性强的特点,导致历史数据回放分析无法精准满足实际场景复盘的需求,进而提出一种基于 BCT 的数据集分析系统,包含自定义 BCT数据集定义、数据集交互、系统架构设计、数据处理流程。经过实际项目长时间的拷机测试,在数据全局性、数据复盘准确率、数据异常定位、数据时序拟合性方面,均取得高精度的运行。关键词:高频;强时序;多源;BCT 数据;数据分析系统数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering251有其独特的强时序性,在将整个系统作为分析对象时,多源数据又具有全局强时序性。为了解决复杂场景下,多业务系统耦合交互,数据维度多,数据实时性强,难以高效的进行高质量历史数据回放的痛点。本文提出一种面向高频多源强时序性数据集的分析系统。经过实际项目长时间运行,极大提高整体系统的运行质量,极大缩短外场运维的时间,对项目的长时间稳定运行提供坚实保障。1 BCT数据为了高效分析高频性、多源性、强时序性特点的数据集,本文着重考虑了历史数据回放的数据基础,对实际作业中的数据存储格式和机制进行深入分析和研究,提出了一种自定义的数据协议格式 BCT。BCT 数据协议采用三层次协议,即 B 层、C 层以及 T 层协议。其中B 层为纯字节形式存储的以帧为单位的实时数据流,并添加自定义帧头 0 xED、0 xDE 以及帧尾 0 xEE。C 层数据协议为帧级索引,采用字节的形式进行编码存储,每一帧数据的索引字段包括时间戳2、偏移量、数据标识符、帧计数、帧长度、数据类型、数据源。T 层数据协议为全局索引文件,采用字符的形式进行编码存储,主要包含分段存储信息,每一个分段存储时跨文件的索引记录,其索引字段包括时间戳、数据标识符、开始时刻的帧计数、结束时刻的帧计数。采用 BCT 数据格式,B 层数据存储能满足高频数据存储的需求,C 层以及 T层数据在一定程度上满足了强时序性以及多源性数据在后续分析过程中的高匹配度要求。另外,在数据容错性方面,采用字节形式存储的实时数据,存储文件体积较小、数据存入和取出都是按字节形式,不容易出错,并且索引和字节两个文件能够互相验证。另外,两级索引文件能够在数据回放进度控制中提供强有力的速率控制精度,数据回放匹配度的保证。1.1 数据的基本定义1.1.1 B 层数据基本格式B 层数据存储时不需要区分数据源,均采用数据字段添加固定帧头和帧尾的方式,进行数据流按序存储。B 层数据的基本格式如表 1 所示。B 层数据是对原始多源数据的记录,在存储过程中,对多源数据进行无差别存储,均采用 0XED 和 0XDE 这两个字节作为帧头,以 0XEE 作为帧尾进行存储。数据域存储实时的变长字节流数据。1.1.2 C 层数据基本格式C 层数据以帧为单位的索引文件,在存储模块中,对不同来源的数据进行帧级别的存储,作为帧数据的索引文件。综合考虑数据的强时序性、多源性,自定义如下的 C 层数据基本格式。表 2 C 层数据基本格式定义中,帧头 HEAD 使用 0XDD 和 0X70 这两个字段,同时也支持自定义。DATE 字段表示时间戳,设定为长整型数据,主要是将QDataTime 转化为长整型数据,精确到 ms 级别。FLAG字段的设定充分考虑文件存储的粒度,来切片化数据存储,并进一步区分为索引帧数据和文件数据,0 表示存储每帧数据的信息,1 表示存储分段时刻的文件信息,需注意在分段时刻,需要同时写入最后一帧数据,以及分段时的文件信息。OFFS 字段为当前帧距离文件首位置的偏移量,主要是为后续快速回放提供帧级保障。表 1:B 层数据帧自定义表 2:C 层数据基本格式定义数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering252LENT 字段表示数据类型的帧长度,主要是确保进一步提高读取文件数据存入缓冲流的效率。STYL 字段和ORID 字段的设定能够快速匹配数据推送不同的数据池3以及将其推送到相应的通信线程池,并通过前台界面自定义设定进行联动,TAIL 字段使用 0XEE 字节作为帧尾,同样支持自定义。1.1.3 T 层数据基本格式T 层数据以文件为单位,为了响应高频数据的存储和回放分析速率,经过长时间拷机测试,得出最优化的文件存储粒度。本系统中,文件存储粒度为 200M,即以200M 为单位进行数据存储,将此数据纪录在 T 层数据文件中,每个文件信息独占一行,按字符编码,以字符流形式存储。T 层数据的格式定义如下表 3 T 层数据协议的定义所示。表 3 T层数据协议的定义中,FIID表示文件索引号,其与整个任务作业对象绑定,并且具有系统唯一性,在数据存储文件后缀中进行赋值,其数据回放的快进快退操作中起到一级索引的作用。FIND 表示当前文件的数据总量,本文设定了文件粒度为 200M,但实际作业中会存在一定偏差,尤其是最后存储的文件,文件数据总量偏差较大,因此此处需要填充实际的文件数据总量值。FOFF 表示前后文件的数据偏移量,其与 FIND 一起协同确保数据存储完整性,在数据回放过程中结合滑动窗口4一起使用,加快回放过程中 B 层数据起始帧定位。FSIN 和 FEIN 主要为了在整个回放过程中的 C 层数据快速定位。1.2 三层数据交互关系自定义的 BCT 数据格式中,B 层数据进行原始数据码流的二次快速编辑存储,C 层数据进行帧级数据的格式化编码,T 层数据根据使用者灵活定义,本系统按照此次作业任务进行数据顶层管理。BCT 数据格式的定义,充分考虑了数据存储的速率以及后续数据回放分析的效率,尤其是数据回放分析中关键的数据进度快速响应机制。BCT 数据格式中,三层数据的交互关系如图 1所示。BCT 数据格式中,T 文件中存储数据集,C 文件中存储数据集,B 文件中存储数据集。数据集中的下标定义如上表 2 C 层数据基本格式定义和表 3 T 层数据协议的定义所示,另外,FISID 为文件子集的编号。自定义的 BCT 数据格式,为后续的数据并发处理提供坚实保障,极大满足多源、强时序性数据的分析需求。2 数据分析系统设计本系统采用 Client/Server 架构,设计简洁易操作的前台界面,基本无需向导,即可上手操作,后台服务重点进行多生产者和多消费者模式以及多缓存设计,目的在于提高数据读取的效率和并发运行处理的能力。此外,在多线程中对加锁的粒度,数据缓存的粒度进行实际拷机测试,得出最优设计。系统使用QT开发工具进行开发,采用 C+语言进行编程,支持跨平台使用。2.1 系统架构设计本系统主要实现多源数据接收,多源数据存储以及数据回放分析等功能,包含数据层,业务逻辑层以及 UI层。其中,数据层包括网络数据流、数据库数据集以及文件数据流,业务逻辑层包括数据存储服务、数据回放服务、数据接收服务以及数据读取服务。UI 层包括数表 3:T 层数据协议的定义图 1:BCT 数据格式中三层数据关系数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering253据源配置、数据类型配置、数据展示和回放控制。整体系统架构设计如图 2 所示。2.2 系统前后台交互本系统中前台与后台使用 MQTT5进行消息实时通信。MQTT 是一个即时通讯协议,一种轻量级的、基于代理的“发布/订阅”模式的消息传输协议,与HTTP 之类的协议相比,其在网络传输数据时表现更为稳定,而且支持多种语言和跨平台。本系统通常作为其他大型系统的子系统,采用插件的形式进行集成,因此使用 MQTT 更适合扩展。前后台交互中 JSON 字段包含 m_strTaskFile,m_strFlag,m_ulPos,m_ulTime,m_ulTimeTotal,m_ulStartTime,m_usFileIndex,其 中,m_strFlag字段,包含启动、停止、暂停、中止、移动等属性。本系统使用 ReplayAnalysis 为主题进行消息订阅,需确保 MQTT 服务正常部署与运行。前台和后台的交互流程如图 3 前后台交互过程所示。3 数据分析系统的作业流程数据处理流程中需要重点记录数据预处理阶段和数据后处理阶段的数据有效性。数据预处理阶段主要是根据自定义的 BCT 数据格式对当前任务的多源数据进行存储,需要检测存储数据集的有效性、完整性。数据后处理阶段,重点分析数据时序拟合性,数据一致性以及回放控制率。3.1 数据预处理存储处理流程数据存储处理阶段,在整个系统中至关重要,需要确保存储的多源数据完整无丢失。另外本

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开