分享
多状态图神经网络文本分类算法_王进.pdf
下载文档

ID:2370013

大小:1.60MB

页数:9页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
状态图 神经网络 文本 分类 算法 王进
第 卷第 期重庆邮电大学学报(自然科学版)年 月 ():多状态图神经网络文本分类算法收稿日期:修订日期:通讯作者:王 进 基金项目:国家重点研发计划专项():()王 进,陈重元,邓 欣,孙开伟(重庆邮电大学 数据工程与可视计算重点实验室,重庆)摘 要:为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(,)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合 种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。关键词:自然语言处理;文本分类;图神经网络;注意力机制中图分类号:文献标志码:文章编号:(),(,):,(),:;引 言文本分类是自然语言处理(,)领域的一个基本问题和热点问题。文本分类的应用有很多,比如情感分析、新闻分类和问题回答等。文本分类的核心在于如何获得一个更优的文本表示。因此,许多基于机器学习的算法都开始用于解决文本分类问题,比如支持向量机、决策树和逻辑回归等,但这些算法在文本特征提取和文本表示的能力还不够完善。随着深度学习的发展,涌现出大量基于神经网络的文本分类模型,取得了不错的效果。于 年将卷积神经网络(,)用于文本分类任务,使用多个大小尺寸不同的卷积核来提取多种不同的文本局部特征,将这些特征结合后进行文本分类。于 年提出基于循环神经网络(,)的文本分类模型,以获得文本之间的上下文信息以及较长文本中的依赖关系。于 年提 出 了 快 速 文 本 分 类 器(,),这是一个浅层网络模型且训练速度较快,可以快速地进行文本分类。于 年提出的简单词嵌入模型(,),将词嵌入与池化技术相结合来进行文本分类。于 年提出的预训练语言模型(,)借鉴解决完形填空问题的思想来训练双向的语言模型,然后使用模型微调的方式来完成文本分类任务,取得了较好的效果。预训练模型的优势在于大量的模型参数量以及丰富的训练语料,而其局限性在于计算量较大、对硬件要求较高,应用时需要对性能和成本进行权衡。对于文本数据,其内部结构可看作是复杂的语法树结构的组合,而树结构又是图结构的一种特殊形式。由于图神经网络在处理复杂结构和保存全局信息方面表现出良好的性能,因此在文本分类任务中也取得了一些进展。于 年提出的文本图卷积网络(,),使用所有的文本数据构建成一个大规模图结构数据,再使用图卷积网络(,)来提取文本特征并进行文本分类。于 年提出的文本层级图神经网络(,),引入了一种非频谱的消息传递机制()从邻居节点来获取信息,进而完成文本分类。于 年提出的文本图归纳网络(,),将每条文本数据单独构建为一个图结构数据,再使用门控图神经网络(,)来提取文本特征并进行文本分类。于 年提出的简单频谱卷积网络(,),设计了一种简单有效的过滤器来接受邻居节点信息,并解决文本分类问题。然而,上述基于图神经网络的文本分类算法还是存在一些不足。首先,对于 模型,其主要局限性在于所有的数据都参与构建图结构数据和模型训练,因此,模型具有内在传导性,即无法对新加入的样本快速生成其文本表示并预测其所属类别。对于 模型,它使用固定的全局词对关系来构建图结构数据,无法有效地利用当前词的上下文语境。对于 模型,其在提取特征时主要 参 考 门 控 循 环 单 元(,)的运行机制,这会导致模型训练时出现局部的过度平滑问题,使得模型性能下降;其次,则是基于 的图网络层更侧重于考虑文本的上下文依赖关系,而文本的局部相关性也需要兼顾;最后,在获取高层次文本表示时,可以对图读出器函数进行加强,以获得更优的文本表示。对于 模型,虽然低通与高通滤波器的结合可以从一定程度上缓解过度平滑问题,但对文本中关键信息的捕捉能力有待提高。因此,本文提出了一种基于多状态图神经网络的文本分类算法(,)。首先,将每一篇文档构建为各自的图结构数据,在训练模型时只会使用到训练集文本,从而可以快速地构建测试集文本的图结构数据并对其进行分类。其次,对图卷积神经网络和门控图神经网络进行改动,在提取文本特征时引入网络层多个历史时刻的状态信息,以增强中心节点自身的信息,并将提取到的 种文本特征相结合作为文本的基本表示。最后,使用多头注意力机制从多个角度提升文本中关键词的重要度。通过以上步骤聚合得到文本的高层次表示并进行文本分类,从而提高分类准确率。在几个公开的文本分类数据集上的对比实验表明,相较于其他神经网络文本分类算法,该方法取得了较好的效果。重 庆 邮 电 大 学 学 报(自然科学版)第 卷 多状态图神经网络 本文提出的多状态图神经网络,其算法流程主要分为 个部分:将文本数据构建为图结构数据;基于多状态图神经网络层的特征提取;基于自注意力机制的图读出器函数。图 是 算法整体流程图,下面将详细介绍本算法模型的各个组成部分。将文本数据构建为图结构数据首先对文本做文本分词、大小写写法统一及去除停用词等预处理操作;然后将每条文本中的所有单词进行去重处理,将去重后的每一个单词作为图的节点,将单词之间的共现关系作为图的边。单词之间的共现关系在这里具体是指:在一个固定大小的滑动窗口中所同时存在的单词之间的关系,滑动窗口默认长度为。使用图中每个节点对应词的词嵌入向量来初始化图中所有的节点的向量表示;最后构建出一个无向的同质图。记文本构成的图为(,),其中,和 表示此图的节点集和边集。图 算法整体流程图 基于多状态图神经网络层的特征提取图卷积神经网络 由 于 年提出,它是一种基于频谱方式的卷积图神经网络,使用卷积操作对一个图节点及其邻居节点来提取特征。设某条文本数据的特征矩阵为,其中,为该图中节点的数量,即文本中单词的数量,为词嵌入向量的维度。对已经构建完成的图结构数据应用,利用此图的邻接矩阵 和度矩阵 来完成节点更新与信息传递,并且可通过堆叠多个卷积层来获取高阶邻居节点的信息,其交互过程为(?)()()式中:?是对称归一化邻接矩阵,而,矩阵 是邻接矩阵 对应的单位矩阵。是可学习的权重矩阵,是激活函数。是第 层 的输出,是隐藏单元的数量,记第 层。但随着 网络层层数的增加,中心节点的信息损失越多,导致包含中心节点的连通分量存在局部的过度平滑问题。为了在接收高阶邻居节点信息的同时,突显中心节点本身的信息,需要对网络做一些改进来缓解过度平滑问题。首先,将 的多层权重矩阵替换为参数共享的单层权重矩阵,在降低参数量的同时,减少网络出现过拟合问题的风险。其次,给当前网络层显式地添加前面若干网络层的历史隐藏状态,即使用多步历史状态来增强当前网络层状态,称为多状态图卷积网络层(,),其交互过程为(?)()()()()式中:部分符号来源于()式,记第 层。表示 层中累积的第()步历史状态,表示参数共享的权重矩阵。与 是可学习的参数,用于控制当前网络层与多步历史状态的参与比例。门控图神经网络 是由 于 年提出的一种基于门控循环单元的循环图神经网络,通过修改 的输入适配到图结构数据中,借助图节点前一时刻的隐藏状态和邻居节点的隐藏状态来完成节点在本次迭代中隐藏状态的更新。记第 次迭代时的隐藏状态矩阵为,而第 次迭代时有。在第 次迭代时,节点之间隐藏状态第 期 王 进,等:多状态图神经网络文本分类算法的更新过程为?()()()()()?()()?()()()()式中:部分符号来源于()式,表示第 次迭代的图特征聚合变量,它是借助邻接矩阵 和度矩阵 计算得到。是 函数。,是可学习的权重矩阵,是可学习的偏置项。与 则是类似于 中的更新门单元和重置门单元计算得到的第 步的中间状态,用于控制信息传递与参数更新的比例。由于 网络层在训练时需要循环迭代进行,因此,在提取隐藏特征时也存在连通分量的局部过度平滑问题。为了增强中心节点的信息,同样引入了多步历史状态来增强当前网络层状态并缓解过度平滑问题。不同的是,根据 网络层特性,将网络层的历史隐藏状态引入在使用更新门单元和重置门单元对隐藏特征提取完成之后,以保证在增强本网络层隐藏特征的同时,避免对节点间的正常信息传递与更新造成影响,称为多状态门控图神经网络层(,),其交互过程为 ()()()()式中:部分符号来源于()式,表示 层中累积的第()步历史状态。与 是可学习的参数,用于控制当前网络层与多步历史状态的参与比例。在以上 种图神经网络层中,节点信息的更新与传递方式不同,会提取到不同层次的文本特征。设 为通过 层提取到的特征矩阵 的第 个特征向量,为通过 层提取到的特征矩阵 的第 个特征向量,将这 种特征进行组合,表达式为()()式中,表示向量的拼接。随后可得到经过特征拼接后的新特征矩阵,以丰富文本表示。基于自注意力机制的图读出器函数至此,已经获得了由 种不同层次的隐藏特征构成的组合特征。为了得到用于分类的高层次文本表示向量,在图读出器函数中引入多头自注意力机制()来获取更优的文本表示。自注意力机制()可以较好地捕获语句中的长距离依赖关系,而多头自注意力机制可以从多个角度并行地选取输入信息进行计算,且每个注意力头的侧重点有所不同,其计算过程为,(),|,()(,)()()()式中:,是通过第 个全连接层变换后的隐藏特征,用于注意力机制的计算,与,是可学习参数;表示第 个注意力头的计算结果,表示 函数,表示节点集 中单词的数量;表示多个注意力头的向量拼接操作;表示使用多头自注意力机制的计算结果。为了最终完成文本分类,将图中所有节点的向量表示累加,再根据图中节点的数量进行归一化后得到最终的图层次表示,也即最终的文本表示。最后,将得到的文本表示通过 函数得到预测概率,再与文本真实的标签值计算交叉熵损失,计算过程为 ()(),()()()(),()()()式中:为通过全连接层的隐藏特征;为激活函数;是可学习参数。为图节点使用均值聚合后的图层次表示,表示该图中的某一具体节点。为通过全连接层的预测概率,为 函数。是当前批次文本数据的总损失值,是一条文本数据的标签值。实验与分析为了检验本文所提出的 的性能,在实验部分主要关注了 的分类准确率;多状态图神经网络层和多头自注意力机制的有效性,以及图神经网络层数量对分类准确率的影响。重 庆 邮 电 大 学 学 报(自然科学版)第 卷 实验数据集、基准算法与实验设置对比实验采用了 个公开的基准数据集:基于电影评论的情感分析数据集,路透社新闻数据集 和,医学文摘数据集,问答数据集,新闻主题分类数据集 等文本分类领域的真实数据集,表 给出了上述数据集的一些基本统计信息。表 实验数据集的基本统计信息 数据集总样本数训练样本数测试样本数标签类别数平均单词数 在实验中用于对比的基准算法有 个,分别是,(),以及。主要的实验设置:由于所有数据集已经划分为训练集和测试集,因此随机选取训练集中 的数据作为验证集,用于确定模型中较为适合的网络超参数。为了实验的合理性,所有模型使用的优化器均为(初始学习率为),使用的词向量均为(词向量维度为),而对于不在词表中的单词使用均匀分布(,)来随机生成。实验结果与分析在实验部分,对所有模型进行 次实验,并取 次实验结果的平均值作为模型的最终结果,使用的评价指标为分类准确率。表 给出了本文所提出算法与基准算法在 个公开数据集上的实验结果,加粗的数字表示最优的结果,部分实验结果来源于其他文章。表 各模型在 个数据集中对测试集的分类准确率 本算法 相比于其他算法具有一定的性能优势,具体体现在分类准确率上。在 个数据集上超过了全部对比基准算法,证明了改进后的多状态图神经网络 层和 层,结合多头自注意力机制的整体有效性。值得注意的是,在 与 数据集上的表现相比于 略有不足。这是因为 中的多状态图卷积网络层采用了参数共享的设计方式,虽然可以有效地提升模型的运

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开