分享
多注意力机制BERT分类模型及其在电力运维中的应用_王文娟.pdf
下载文档

ID:412070

大小:1.27MB

页数:8页

格式:PDF

时间:2023-03-28

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
注意力 机制 BERT 分类 模型 及其 电力 中的 应用 王文娟
第 卷第 期重庆邮电大学学报(自然科学版)年 月 ():多注意力机制 分类模型及其在电力运维中的应用收稿日期:修订日期:通讯作者:胡 峰 基金项目:国家自然科学基金();国家重点研发计划资助项目(,):();(,)王文娟,何晓莲,胡 峰,赵 伟,钟淘淘(国网重庆市电力公司 信息通信分公司调控中心,重庆;重庆邮电大学 计算智能重庆市重点实验室,重庆;重庆邮电大学 国际合作与交流处,重庆;国网重庆市电力公司 信息通信分公司技术发展部,重庆)摘 要:为了提高变换网路中双向编码表示(,)在文本分类中的应用效果,针对基于 的文本分类模型在注意力机制设计中无法关注文本中重点信息的问题,提出了一种基于多注意力机制的 分类模型。对 模型框架中后四层的每一层输入向量,设计词向量注意力机制,捕捉向量表中每一个词的重要性;对得到的 模型框架中后四层,设计层向量注意力机制,将这四层上由自适应权重计算得到的每一层输出向量进行融合,获得最终的 模型输出向量,更好地提升模型的特征抽取能力。在公开数据集 和 上的实验表明,提出的模型相较于其他基线模型性能有明显提升。在电力系统运维项目管理的实际应用中,该模型也取得了比基线模型更好的效果,较好地解决了电力运维规模预测混乱问题。关键词:分类;多注意力机制;电力运维系统;特征抽取中图分类号:文献标志码:文章编号:(),(,;,;,;,):,:;引 言随着深度学习技术在诸多实际应用领域的繁荣发展,它也被迅速广泛地用于自然语言处理技术,并且在许多实际场景中取得了很好的应用效果。在信息处理中,文本有向量空间模型、语义网络、框架模型等表示方法,基于深度学习的自然语言处理任务,采用端到端的方式,有效取代了手工获取文本特征的方法。其中常用的网络有卷积神经网络(,)、长短期记忆网络(,)及它们的各种变体,这些网络作为特征抽取器,各自有不同的优缺点。而 模型的出现,进一步提升了自然语言处理任务的能力,并且在不同自然语言处理任务上的性能均有提升,如文本分类,文本摘要和文本匹配等。使用了变换网路模型结构中的编码模块,并由预训练和微调两阶段任务构成,在海量语料上训练完 之后,便可以将其应用到自然语言处理的各个任务中。电力运维管理系统是电力服务系统中的关键一环,能够保证服务系统的安全稳定可靠运行。通过运维项目内容对运维人数进行预测,能够提升电力服务系统的质量,避免造成服务中的运维人员不足或冗余。然而运维项目文本中与运维人数规模相关的文本都是短文本,传统基于 的文本分类方法不能较好地关注文本中的重要信息,为此本文提出了一种基于多注意力机制 模型(,),将 模型中的后四层与注意力机制相结合从而模型效果更好。首先,设计了词向量注意力机制,对后四层中每一层输入向量的不同词给予权重设计,获得不同词的重要性;其次,设计了层向量注意力机制,在得到每层的输出向量表示后,分别对每层输出向量进行自适应加权;最后,对四层加权后的向量进行融合,以此来提升模型的特征抽取能力。在、数据集和电力运维数据集上进行的实验表明,本文模型的结果优于其他基线模型。相关理论 注意力机制注意力机制源于对人类视觉的研究,目前在图像领域、自然语言处理领域等得到了长足发展。其本质思想如图 所示。首先,输入某个元素的查询;其次,计算每个查询和每个键之间的相似性或相关性,从而得到每个键对应值的权重系数;最后对值进行加权求和,即得到了最终的注意力值。文献 将循环神经网络(,)模型与注意力机制结合,提升了图像分类精度;文献将注意力机制应用到自然语言处理领域中,提升了机器翻译效果;文献提出的自注意力机制更是取得了进一步的突破。图 注意力机制示意图 变换网路模型变换网路模型以自注意力机制为基础单元并只依赖注意力机制,与大多数 模型一样,其结构也是由编码器和解码器组成,如图 所示。编码器负责把输入序列进行位置编码后映射为隐藏层,然后解码器再把隐藏层映射为输出序列。编码器的第 部分将输入的数据转换为向量,通过位置编码后将其输入到多头注意力;第 部分的多头注意力能够获取数据内部之间的相关性;第 部分是残差连接和标准化,能够较好地提高模型的学习能力;第 部分则通过由两个全连接层组成的前向反馈层,将学习得到的数据进行非线性映射。相比于 模型,变换网路模型能够进行并行计算,提高运行速度;而相对于 模型,其又能够获取位置信息,因此,变换网路模型在自然语言处理任务第 期 王文娟,等:多注意力机制 分类模型及其在电力运维中的应用中得到了广泛应用。模型 模型采用了变换网路模型结构的编码器模块,如图 所示。变换网路模型是自然语言处理领域的代表模型之一,由一些块组成,每个块由一个注意力层以及一个应用在每个输入元素的非线性函数组成。模型由预训练和微调两阶段任务构成,其中在预训练阶段通过 个任务进行训练,掩码预测和预测下一句。掩码预测随机遮蔽一句话中的几个词,然后根据剩余的词对遮蔽的词进行预测。预测下一句判断文章中的第 句话是否是在第 句话之后。通过对这 个任务进行联合训练,从而使 拥有更强、更全面的学习泛化能力。模型的输入主要包含字嵌入、分割嵌入和位置嵌入 部分,将这 部分相加后传入 模型,而 模型输出会根据任务的不同略有差别。图 变换网路模型 图 模型示意图 重 庆 邮 电 大 学 学 报(自然科学版)第 卷 本文模型结构为了更准确地提取语义信息,解决在电力运维项目管理中运维人员规模申报混乱的问题,本文提出了一种基于多注意力机制的 预测模型。该模型针对 模型进行了改进,将 模型中变换网路编码器的最后四层进行拼接,设计出不同角度的注意力机制融合。一方面,针对 模型中变换网路编码器最后四层的词向量与注意力机制的融合,设计出词向量注意力机制;另一方面,针对 模型中变换网路编码器最后四层的层向量与注意力机制的融合,设计出层向量注意力机制;从而获得文本中更准确和全面的信息语义,提高电力运维人数的预测效果。词向量注意力机制 模型的输入由字嵌入、位置嵌入和分割嵌入 部分组成,这 部分进行组合后,得到生成向量,作为 模型的输入。假设原始文本输入为,经过上述 部分处理后,输入向量 表示为()()(),()()式中:表示第 个文本数据;表示经向量化处理后得到的向量表示;表示进行字嵌入处理;表示进行位置嵌入处理。本模型针对 结构中的最后四层进行了注意力机制融合设置,称为词注意力机制。将最后四层中每一层输入向量的每个词与注意力机制相结合。在 模型中,每个输入的短文本句子首部都会加上“”;由“”所对应的 维向量即可视为整个短文本的代表,作为文本的输入数据;再对输入数据进行字嵌入、分割嵌入和位置嵌入的 种处理,获得 种不同向量。对上述 个向量进行融合得到最终的 模型的输入向量,。模 型 的 构 成 元 素 是 变 换 网 路。其 中使用了 层变换网路块,使用了 层变换网路块。本文词向量注意力机制如图 所示。若 模型共有 层,则其最后四层表示为变换网路编码器第 至第 层。在向量 输入至 模型后,第 层向量表示为 ,经过 模型中间层处理后,第 层向量表示为 ,。不同于第 层,该层结合了注意力机制用于得到该层最终的输出向量表示。在 第 层 的 训 练 过 程 中,对 于 输 入 的“”所对应的向量 中的第 个词向量赋予不同权重,以便得到不同词的重要性,词向量注意力机制的权重公式为()(),()()式中:表示权重系数;表示当前变换网路块的层数。图 词向量注意力机制示意图 在得到每个词向量的权重系数后,将每个词向量与各自的权重值相乘,进行汇总得到最终向量 为 ()层向量注意力机制所获得的融合了词注意力机制的每一层向量,不能仅仅依赖于“”对应的句子向量,还要充分考虑整个短文本中句子的详细信息。为了使获得第 期 王文娟,等:多注意力机制 分类模型及其在电力运维中的应用的原始文本信息更加丰富,本模型对最后四层的向量采用了结合注意力机制的融合方式,称为层向量注意力机制,其结构如图 所示。这个过程对每一层的输出向量设计自适应的注意力权重 为()(),()通过为最后四层的每一层赋予不同权重后,将最后四层经过加权计算后的向量进行融合得到输出向量,即 ,()最终得到的向量 将为 模型下游任务文本分类模型的输入,通过对文本分类模型的参数微调即可获得所对应的分类结果。本文针对 模型中词向量和层向量分别进行注意力机制融合设置,在 模型的训练中能够捕捉到更加全面丰富的文本语义信息。图 层注意力机制示意图 实 验为了验证本文模型的预测效果,在公开的 和 数据集以及实际的电力运维项目数据集上分别进行实验。实验数据集 数据集来自互联网电影资料库(,),其中包含 条严重两极分化的评论,可将其视为文本的二分类问题,其格式如表 所示。表 数据集 序号评价内容标签 数据集根据新浪新闻 订阅频道 年间的历史数据筛选过滤生成,包含 万篇新闻文档,分 个候选分类类别,可将其视为文本的多分类问题,本文从中随机选取 条数据用作实验。数据集格式如表 所示。表 数据集 序号新闻文本内容标签台湾电 联赛报道第 场战况报道台湾电竞联盟台白色灯具既明亮又很温馨,在灯具的选择时,如果想既明亮又很温馨 马晓旭意外受伤让国奥警惕无奈大雨格外青睐殷电力运维服务数据集通过收集得到,其中主要包括运维规模、运维人数分类等类别。为预测电力运维人员规模,便于资源调度和项目安排,将运维人数划分为 人以下、人、人及以上 个类 重 庆 邮 电 大 学 学 报(自然科学版)第 卷别。实验收集的电力运维项目书共 条,数据格式及内容如表 所示。表 电力运维服务数据集 序号运维规模内容运维人数运维人数等级重庆市电力公司本部、家地市供电企业、家业务支撑实施单位约 万名用户系统为二级部署,本地有 台服务器。项目提供运维服务的对象为全市用户,用户数 人 台服务器为项目提供支持 实验设置本文对比了、等基线模型。词向量维度为,共包含 个词;使用的卷积核数为,值设置为,优化器使用,学习率为;隐层维度设置为,值设置为,优化器使用,学习率为;长度为,优化器采用,学习率为。评价方法本实验使用的数据集包括、数据集和电力数据集,分别为二分类和多分类问题,根据真实类别和预测类别可以划分为真正例()、假正例()、假负例(),并依次计算精确率(预测样本数与实际预测样本数之比)、召回率(正确预测样本数与应该预测样本数之比)、精确率和召回率调和均值的 值,针对多分类问题使用宏查准率()、宏查全率()、宏 值()进行评估,计算公式为 ()()()()()()实验模型本文所对比的基线模型如下。):采用卷积神经网络()作为文本的特征抽取器,从而进行文本分类。):采用长短期记忆网络()作为文本的特征抽取器,从而进行文本分类。):是文本分类中的经典模型,采用不同大小的卷积核,利用 来提取句子中类似的关键信息。):使用 进行预训练,获取文本向量表示,将文本分类视为下游任务进行微调。):基于 和 的多通道注意力机制文本分类模型(),主要思想是用多通道注意力机制()提取 和 输出信息的注意力分值,将多通道注意力机制的输出信息进行融合,从而实现文本分类。实验及分析 公开数据集实验在 数据集上的实验属于文本二分类任务,实验结果如表 所示。表 数据集实验结果 模型本文模型在 数据集上的实验属于文本多分类任务,共有 个类别,实验结果如表 所示。表 数据集实验结果 模型本文模型第 期 王文娟,等:多注意力机制 分类模型及其在电力运维中的应用由表表 表可见,对于文本分类已经取得了不错的效果,而 模型的结果表现更好。从模型的原理分析,、和 都以 为词向量,无法解决歧义词问题,不能动态调整词向量;而 模型较好地解决了这个问题,所以在实验效果上明显优于这 个模型。相比而言,模型设计了一种从 和 网络中提取输出信息的注意力分值的机制,其效果也略好于 模型。本文提出的基于多注意机制 分类模型在原始模型的基础上引入了注意力机制,设计了相应的词向量和层向量的权值调整方式,能够从文本中捕捉到更加全面准确的特征向量表示。从表 表 可以看出,本文模型的效果优于所有基线模型。电力数据集实验在电力数据集上的实验属

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开