分享
自然语言形式的协议内容生成及解析方法研究_李敬兆.pdf
下载文档

ID:355883

大小:1.07MB

页数:6页

格式:PDF

时间:2023-03-22

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
自然语言 形式 协议 内容 生成 解析 方法 研究 李敬兆
第 卷 第期佳 木 斯 大 学 学 报(自 然 科 学 版)年 月 ()文章编号:()自然语言形式的协议内容生成及解析方法研究李敬兆,倪旺旺,石晴(安徽理工大学计算机科学与工程学院,安徽 淮南 ;淮北合众机械设备有限公司,安徽 淮北 )摘要:针对工业物联网设备间因协议内容异构存在通信壁垒的问题,提出了一种自然语言形式的协议内容生成及解析方法。生成方法通过分析传感设备信息的基本结构,利用语言模板将设备信息生成自然语言形式的文本;解析方法对自然语言形式的文本进行文本预处理、关系识别和命名实体识别操作,生成结构化的设备信息。测试结果表明,基于自然语言的协议内容生成及解析方法可在设备间传输多种传感器信息,验证以自然语言形式传输协议内容的可行性。关键词:自然语言;设备协议;协议生成;协议解析;物联网;命名实体识别中图分类号:文献标识码:引言物联网被广范应用于数字化工厂的建设之中,各种物联网传感设备在状态监控、信息传递和远程控制等过程起到不可或缺的作用。由于物联网体系和传感设备本身的多样性和异构性特点,如何打通设备间信息壁垒、开发异构设备协议、提高节点间的互操作性,是工业物联网发展过程中亟需解决的问题之一。各式传感设备的协议内容的不同编码方式,主要来源于不同厂家的编码偏好及历史沿革,使协议内容在物联网系统中具有异构性,并直接影响着设备间语义级的互操作性。采用自然语言处理技术对协议内容进行生成和解析,并以自然语言作为协议的编码方式,实现设备间语义级别的互操作。相关方法已经在淮北合众机械设备有限公司的智能车间系统项目中得到应用。研究现状物联网追求的目标是将任何现实物体的状态信息输入到计算机系统中,通过网络技术协同实现一系列的功能。物联网领域的传感器种类繁多,数量在不断增长,同时物联网的处理平台也各式各样,例 如 公 司 创 建 的 物联网托管平台,中国移动物联网实验室发布的 工业物联网平台。这些平台具有信息定义、信息管理、信息交互等服务,发布与平台对应的 开发工具,并提供基础的例如、等物联网协议。这些平台的出现,使得设备可利用现有的通信网络灵活地进行数据传输,用户可根据设备所需要的不同传输数据量和传输距离进行传输方式上的多样选择。不足之处是当前物联网平台还无法提供语义级别的服务,协议内容的生成和解析方式未能形成行业共识。为解决语义级别的信息传输问题,现有解决协议内容异构性的方法主要有两种,一是利用基于实体的资源描述的方式,构建传感器设备本体模型,统一化现有的各种传感设备。二是通过云服务,将传感设备协议处理方法以模块的形式由使用方动态安装。由于这两种方案由于存在与现有体系的兼容性和支持设备规模等问题,未能被大规模应用。除这两种方法之外,由于自然语言语义信息的丰富,通过自然语言处理技术对协议内容的处理也成为一种解决问题的思路。自然语言处理技术目前已在语言翻译、知识问答、内容抽取等领域取得了很好效果。协议内容生成及解析方法物联网传感信息传输的路径如图所示。在感知层,传感设备首先根据各传感器的工作时序进行通信,得到数字或模拟形式的传感器数据,在处理器进行数据的预处理后,对传感器信息进行编收稿日期:基金项目:国家自然科学基金项目(,);北京理工大学高精尖机器人开放性研究项目();物联网关键技术研究创新团队()。作者简介:李敬兆(),男,安徽淮南人,教授(二级),博士生导师,研究方向:计算机监控、物联网技术及应用。第期李敬兆,等:自然语言形式的协议内容生成及解析方法研究码,根据预设格式生成协议内容,通过通讯端口对外发送。通讯端口将信息以网络报文形式经由传输层送往指定地址,由应用层通讯端口进行报文的接收。协议内容以字节流的方式被协议解析程序解析成结构化数据,最终送往业务程序,完成传感信息的传输。图物联网传感信息传输路径物联网传感信息传输的路径中,应用层结构化数据需要和传感设备使用同一种信息模型,以保证信息的正确性,目前这项工作通过编程的方式完成。由于编程工作与设备、平台高度绑定,对于数字化工厂的建设,异构设备、异构平台的系统会使得编程方式难以配合完成工厂设备的构建、改变和升级,从而形成设备间信息壁垒的现象。形成设备间信息壁垒的本质原因是因为发送方信息形式化表示的多样性与接收方信息语义解释能力的不足,同时制约着物联网规模的进一步扩大。自然语言在信息的所有表现形式中具有最高的信息容量,同时自然语言是非结构化的信息形式,自然语言处理技术可以将自然语言这种非结构化的信息进行结构化处理。考虑到传感设备信息在自然语言中有着基本固定的描述方式,且相较自然语言在其它方面的工作,传感设备本身的信息规模较小,因此将自然语言处理技术与传感设备协议内容的处理相结合,研究协议内容的生成和解析方法,给出自然语言形式的传感设备协议内容的操作方法。协议内容生成方法协议内容的生成方法的目的是将传感设备的信息转化成自然语言形式的协议内容,方法流程如图所示。首先,发送设备获取某一个传感器的名称和传感器数据,根据传感器名称从模板库中匹配所需要的规则模板,接着将传感器名称、传感器数据和规则模板送单句合成器,合成单个传感器协议内容语句。对多个传感器使用同样的操作,直到所有的传感器单句生成完毕。最后通过段落合成器,将多个单句合并成为段落,作为最终的协议内容。传感器的种类和蕴含信息各异,但对于单个的传感器,信息种类和信息描述方式相对统一。对于实体关系,任何一种关系都可以使用一个三元组进行一个简单地陈述,将单个传感器的描述信息以三元组的方式进行表示(标识,数据,描述方式)。其中“标识”为传感器的唯一表示,包含传感器名称和预设序号;“数据”为传感器采集到的数据信息,根据 对数据的存储方式,“数据”被定义成四种基本类型:数字量、开关状态、时间和组合序列;描述方式为传感器的名称与数据在自然语言中的描述方式。常见传感器的信息表述方式示例如图所示。图协议内容生成流程相对于协议内容的解析,协议内容的生成相对简单,由传感设备采用基于模板或规则的方法进行生成。基于模板或规则的生成技术是自然语言生成技术中较为成熟使用的一种技术,来源于填充方法。在本系统中,系统根据协议的内容事先构造出数种可能出现的协议内容生成方式,设计多个对应的规则模板,每种规则模板包括一些常量和变量字段。当设备获取传感器数据信息后,利用文本生成器将信息嵌入到模板相应位置,替代变量。对于特定的传感器,生成器的处理开销只需在字符串操作的水平上,无需在深层次进行语言处理,因此无论在工作效率,还是在实现手段上,采用基于模板或规则的方法都更适应于传感设备上的使用。协议内容解析方法协议内容的解析主要通过文本预处理、关系识别和命名实体识别三个过程,处理流程如图所示。首先,对接收到的协议文本内容进行分句、分词和词性标记操作。接着根据语法规则,通过平滑窗口的方式,对语句进行关系识别,当识别窗口命中某一特定序列时,利用关系对应的解析方法对单句进行解析操作,得到对应的词素。然后将词素利用命名实体识别的方式,转化为对应的数据结构。重复以上操作直到解析完所有语句,最终协议信息以结构化的数据形式交由应用层进行处理。佳 木 斯 大 学 学 报(自 然 科 学 版)年图传感器信息表述方式示例图协议内容解析流程文本预处理过程是协议内容解析的首要步骤,使用 工具包 对协议内容文本进行分句、分词和词性标记三种操作。分句操作主要根据标点符号确定句子的边界,将协议文本分解为单句集合,其中,代表单句,为单句数量。对于序列型句式,例如“摇杆位置在(,)”,则利用“过短句向前归并”原则,将“,)”归并与“摇杆位置在(”句子中。分词操作会对于每个单句分词为个词语的集合,其中,为单个词语。最后将每个词语进行词性标注,得到标注后的词词性序列(,)(,),(,),其中,为词语对应的词语标签。关系识别过程会根据语法规则集提供的规则模板,利用基于多域并发时间窗的方法 对词词性序列进行关系抽取操作。关系抽取操作旨在从语句中抽取文本中的实体对,以及识别实体对之间的语义关系,对于传感设备协议内容来说,具体任务可表示为三元组()抽取 ,任务目的是找出尽可能多的拥有“”关系的实体对,(,)。任务对词词性序列的标签(,)”关系作为窗口模板对词语标签进行识别,筛选出满足模板格式的标签序列,并将标签序列与对应的词语构建成词 词性集合(,)(,),(,),送往下一步进行处理。图协议内容生成界面命名实体识别 过程的作用是对词语文本进行种类解析,转化成为应用层能够处理的(名称,数值)数据结构 。命名实体识别操作可识别的对象包括数字、时间和枚举值等,处理操作依据传感器物理量的类别逐次解析,先按照属性值数量分为单数据类型和组合类型,再使用基于规则的方法判断每一个值是否为时间和数字,最后依据字典判断是否为其它枚举值。针对不同的名称和属性值组合成为特定的数据结构 ,传递给应用层。实验设计及结果仿真软件的设计为验证上述方法的可行性,构建了一套协议处理系统,来模拟对协议的处理过程。系统分为协议第期李敬兆,等:自然语言形式的协议内容生成及解析方法研究生成和协议解析两部分,对应协议内容的生成和对协议内容的解析。实验以设备状态监控作为应用背景,制作出两个界面,对应的协议的生成和协议的解析。软件开发工具为 ,编程语言为和 ,运行平台为 操作系统,软件之间的信息传输使用 传输协议。协议生成软件协议生成软件用于模拟设备的监控信息,界面和模拟传感器的填充效果如图所示。软件界面包含设备数据、协议生成按钮、协议内容文本框、地址选择框和端口选择框。设备数据区包含模拟数据按钮、数据名和传感器值。模拟数据的产生与发送可手动操作,也可由定时器自动执行。在软件界面上点击“模拟数据”按钮,程序会为设备内多个传感器赋随机值。点击“协议生成”按钮,程序会根据设备的信息在文本框中生成自然语言形式的协议内容。在“目标地址”框中输入目标地址(默认使用本地环回),在“目标端口”框中输入目标接收端口,并点击“传送”按钮,文本框中数据会通过 的方式发送出去。图协议内容解析示例界面协议解析软件协议解析软件可以对接收到的信息进行解析和显示,协议解析软件界面如图所示。软件运行过程中,通过通讯端口自动接收协议生成软件发送的信息,通过自然语言处理的方法进行解析,并在界面上进行更新。在界面上点击“打开接收”或“关闭接收”按钮,可开启或停止外界信息传入。接收的协议内容文本会在文本框中显示。点击“解析”按钮,可将文本形式的协议内容解析为设备数据。算法测试协议生成软件模拟多种下位机传感器数据,生成自然语言形式的协议内容。协议内容通过 方式传送到协议解析软件,模拟网络传输。协议解析软件对协议内容进行解析,在界面上设置对应的传感器状态。生成的协议内容及解析效果如图所示。图协议内容生成及解析效果图中“”字段为自然语言形式的协议内容,“”字段为结构化的协议内容,并以 编码的形式进行呈现。可以通过序列化工具将内存数据转化成 编码形式的字符串,也可通过反序列化工具将 编码形式的字符串映射到内存。结构化的数据在内存中的存储结构如图内存结构示意图所示,所使用的序列化工具为微软 程序集。由图中内容可知,结构化的传感器信息已经被写入到计算机内存中。图内存结构示意系统应用将提出的基于自然语言处理的协议生成和解析方法,应用在淮北合众机械有限公司智能车间系统项目中,作用于系统的网络通讯模块。下位机模块采集和传送设备运行实时数据,后端程序对数据进行分析,并在前端界面展示监控设备运行状态和提供历史数据管理等功能。图展示的是系统前端界面。在协议内容上,下位机模块向后端程序传送自身的地址、下位机目前的时间、设备状态特征值和佳 木 斯 大 学 学 报(自 然 科 学 版)年其它传感器数据。下位机与后端程序的通讯协议包含数据字段如表所示。图系统前端界面表通讯协议数据字段字段名值类型字段含义 字符串设备地址 日期时间设备当前时间 数字异常状态特征值 数字温度传感器值 数字烟雾传感器值 数字火焰传感器值经过自然语言方式处理的协议内容及协议解析结果如图 所示。图 通讯协议内容及解析结果结语提出了一种基于自然语言处理的协议生成和解析方法

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开