温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
Transformer
生成
文本
摘要
模型
赵伟
第 卷第 期重庆邮电大学学报(自然科学版)年 月 ():基于改进 的生成式文本摘要模型收稿日期:修订日期:通讯作者:刘 群 基金项目:国家自然科学基金();国家重点研发计划(,):();(,)赵 伟,王文娟,任彦凝,刘 群,胥钟予,彭 露(重庆邮电大学 国际合作与交流处,重庆;国网重庆市电力公司信息通信分公司 调控中心,重庆;重庆邮电大学 计算机科学与技术学院,重庆)摘 要:基于循环神经网络(,)注意力机制的序列到序列模型在摘要信息提取服务中已经取得了较好的应用,但 不能较好地捕捉长时序信息,这使现有模型受限。为此,提出了基于改进 的生成式文本摘要模型。该模型利用 提取全局语义,使用局部卷积提取器提取原文细粒度特征,并设计全局门控单元以防止信息冗余和弥补语义不足,筛选出利于摘要生成的文本关键信息。实验结果表明,所提模型在大规模中文短文本摘要数据集(,)上的效果有明显的提升,在电力运维摘要数据集上,也有良好效果,具有可扩展性。关键词:生成式摘要;序列到序列;改进;局部卷积中图分类号:文献标志码:文章编号:(),(,;,;,):,(),:;引 言自动文本摘要旨在将一段长文本压缩精简,提炼出一段短文本。该短文本能够简单准确地表达原文含义并保留其关键信息。在信息超载时代,自动文本摘要技术显得尤其重要,它不仅准确表达了文本作者的意图,而且有效降低了用户阅读的成本。目前的文本摘要技术,可以分为抽取式摘要和生成式摘要两种。抽取式摘要按照一定规则直接对原文中的要素信息进行抽取组成摘要,容易产生信息的冗余,而且在句子间易于出现语义不连贯的现象;生成式摘要通过理解文本的关键内容,用简练的文字将原文本信息表达出来,这一过程和人工生成摘要模式相仿。生成式摘要在文本摘要研究中已成为热点。文本摘要生成是自然语言处理中的一个典型任务,与机器翻译任务十分类似。因此,许多机器翻译方法被应用在生成文本摘要的任务中。文献等为解决机器翻译中序列标注数据不足的问题,提出了端 到 端 的 序 列 到 序 列(,)模型。该模型包含编码器和解码器两部分,编码器负责获取输入信息的语义向量,解码器负责将语义向量转化为输出信息。文献 对 模型进行了改进,借鉴人在阅读时注意力会集中在关键词部分这一思维模式,改进了注意力机制,显著提高了机器翻译任务的效果。此后许多自然语言处理任务都引入了基于注意力机制的 模型。文献首次将基于注意力机制的 模型应用于生成式文本摘要任务,并在 和 数据集上取得了良好的效果。文献提出第一个中文大型文本摘要数据集,以字符或词语作为单元训练神经网络模型,进而产生中文文本摘要评测的基线模型,推动国内文本摘要领域的发展。文献提出采用完全基于循环神经网络(,)的 模型构建生成式文本摘要,其模型中的编码器和解码器均使用双向门控循环单元(,)。文献将长短期记忆网络(,)网络嵌套在 网络之上,以获取更加优质的信息。随着基于 模型的生成式文本摘要研究的发展,研究者发现一次性得到的文本摘要质量不高,为此文献提出一种重读机制,模拟人的阅读过程,在阅读结束后才确认哪些词语是阅读重点。由于词表无法完整囊括所有词汇,摘要产生过程中必然会出现未登录词,文献提出将未登录词通过直接复制的方式放入输出序列。文献为解决解码器直接生成、直接复制以及复制的位置等问题,提出了指针生成器网络。文献在指针生成器网络上设计了覆盖机制,较好地解决了生成摘要时产生重复词语的问题。生成式文本摘要缺乏文章的结构特性,文献提出将潜在的结构向量和变分编码器相结合,把结构向量加入端到端模型中,较好地解决了这一问题。文献通过评估目标摘要和源文本信息之间的语义相关度,提出了最大化原文本信息与生成摘要的相似度函数。为提高编码器性能,文献引入对抗学习去衡量编码器的监督强度,原文和摘要越相关,监督学习的强度就越强,带来的生成式文本摘要质量就越好。为获取全局信息,文献在编码器端引入全局自匹配机制进行全局优化,并利用全局门控单元抽取出文本的核心内容,同时防止每一个词融入全局信息可能会造成的冗余现象。文献提出将编码器作为解码器的一部分,使解码器的部分模块共享编码器的参数,同时使用门控网络筛选输入序列中的关键信息。伴随深度学习方法的成功应用,得益于 处理序列数据的优势,模型被广泛应用在生成式文本摘要中。但是 关注当前信息而遗忘前期记忆的信息,导致 模型容易产生大量未登录词以及生成重复词语,进而影响生成摘要的可读性,降低摘要的生成质量。为了解决以上问题,本文引入局部卷积提取器与,弥补 遗忘语义信息的缺陷;并借鉴了文献提出的 结构,获取文本全局语义。为避免 提取语义产生的冗余问题,本文设计了全局门控单元筛选关键信息,同时采用指针生成器网络直接复制语义中的词语,使模型生成的文本摘要语义更完整更准确。本文所做贡献总结如下。)提出混合层级全局编码器(,)对原始 模型进行修改,将后 层进行自适应加权,以获得更加丰富的语义信息。)结合双向()和多粒度卷积神 重 庆 邮 电 大 学 学 报(自然科学版)第 卷经网络(,)模型,解决了 遗忘语义信息的问题。)设计全局门控单元进行信息语义融合,解决了信息冗余问题。基于生成式文本摘要的领域信息提取 假设输入文本为 (,),表示输入文本长度。文本摘要任务是输出一段摘要文本(,),()表示输出文本长度。本文模型的框架如图 所示,主要包括局部编码器、混合层级全局编码器、全局门控单元、指针生成器,以及拥有上下文语义向量的 解码器。局部编码器、全局编码器负责读取输入文本,提取原文语义信息;全局门控单元对上述获取的语义信息进一步筛选,生成上下文语义向量并将其传入解码器;指针生成器利用获得的语义向量直接复制未登录词。图 本文模型框架图 混合层级全局编码器 必须依赖上一单元的输入,逐词处理输入序列,无法较好地表示文本的全局信息。本文提出 模型对文本进行嵌入,采用 编码器的 层结构,相对于,能获取更多全局语义信息;对 的最后 层输出进行语义融合,能获取更加完整的语义信息。假设输入文本为 (,),为词汇表大小。使用词嵌入矩阵 将输入文本的词 转化为词嵌入表示 (,),为词嵌入层的维度。转换公式为 ()()式中,为可训练矩阵。在获得 后,将其送入基于 的编码器中进行编码。为了采集更多的全局语义信息,使用 层的 编码器,每层由多头自注意力机制和全连接前馈网络构成。将词嵌入得到的向量通过 个矩阵映射到 个空间,分别得到词 的查询向量、键向量、值向量,计算公式为 ()()式中:,。通过查询向量 访问键向量,得到一个词向量对于其余词向量的注意力权重,将其归一化,计算公式为 ()()式中:为 输出向量的维度;为以自然常数 为底的指数函数。用注意力权重 与值向量 相乘,得到输出向量 为 ()每层的输出向量可以表示为 第 期 赵 伟,等:基于改进 的生成式文本摘要模型(,),其中,。为了获取更加全面的语义信息,模型将 模型最后 层的输出结果送入到注意力模块中,通过注意力机制为每层赋予不同权重。模型的最终输出结果是最后 层自适应加权的结果,即()()()()()()式中:表示最后 层中某 层的权重值;是 模型最终获得的语义编码信息,将被编入下游任务。优化的局部编码器 可以获取全局语义信息,文本 可以提取字节片段大小为 的 元词()的信息,编码器获取的关键信息越多,解码器产生的摘要文本就越优质,因此,结合以上两者的模型结构提取语言内部的关系,可以捕捉更丰富的语义信息。图 为局部卷积提取器结构图,该结构使用不同大小接受域的卷积模块进行局部卷积,以学习具有不同大小的 特征。给定输入隐藏层状态,通过 个粒度大小不同的卷积运算,获得对应的输出、。为了将词语级信息的不同粒度特征进行融合,将以上 个输出进行拼接,即 (,)()图 局部卷积提取器结构图 ()式中,是卷积核大小。同时设置一个可学习的阈值机制来根据局部重要性对拼接的向量进行过滤。为了避免深度卷积神经网络带来的梯度消失问题,本模块加入了残差连接对输出的向量进行优化,最后获得联合输出 为()()()式中:()为 函数;表示可学习矩阵。将由全局编码器模块获得的 送入基于 的编码器进行编码,如图 所示。由前向和后向网络构成,其输出为 ,。每一时刻输出均包含两个方向的隐藏状态(,)。计算式为 ()()结合门控单元将局部卷积提取的 与 时间序列信息 进行融合,通过不断调整优化,进而提高模型性能,最终得到局部编码器提取的特征为 ()()()图 局部编码器 全局门控单元全局编码器与局部编码器的结合尽管能够捕获更多的全局语义,但是通常会包含过多冗余的词语,其中仅有少部分词语可以成为输入序列的关键信息,而这些关键信息才是真正需要抽取的要素。因此,针对上述双编码器结构,本文设计了全局门控单元进行过滤。为提升输入序列的全局语义信息表达,首先,将两编码器输出的语义向量 和 拼接为;然后,使其通过门控单元产生筛选概率,以此为两种编码器进行自适应的权重分配;最后,筛选出包含全局关键信息的语义向量,以此帮助解码器有效利用关键信息来生成摘要。具体公式为 (,)()()()()()重 庆 邮 电 大 学 学 报(自然科学版)第 卷()式中,为可学习矩阵。指针生成网络在解码过程中,模型可能会产生新词,如果某些新词不在词表中,就会导致未登录词问题发生。本文采用指针生成器网络,不仅可以直接从原文中复制词语,而且能够从词表中直接生成词语,避免产生未登录词。在解码的 时刻,词表中选词的概率,为()()()式中:为解码器输入;为隐藏层状态;是上下文语义向量。通过注意力机制得到的原文以()的概率被直接复制成为摘要中的词。在解码的 时刻生成目标词语 的计算公式为()()():()()式中:()是词汇表中所有单词的概率分布,表示原文本中的词。损失函数在训练过程中,给定输入文本 后,为使模型生成摘要 与目标摘要 更接近,即最大化摘要序列 的概率,需要最小化负对数似然函数,即()()()()式中:代表所有可学习参数;代表训练集的集合;()代表输入给定 序列后,得到摘要序列 的概率。实验与结果分析 实验数据集本文实验使用哈工大的 数据集。该数据集是一种大型中文短文本摘要数据集,主要包含 部分:第 部分是真实的新闻训练数据,包含 对短文本和摘要;第 部分包括随机从第 部分的训练数据中采样的 对人工标注的短文本和摘要;第 部分选取不同于第 部分人工标注的文摘,一共 对。第 第 部分数据被专家进行了 分的评分:“”表示短文本和摘要最不相关,“”表示最相关。与文献一致,本文实验选取第 部分数据作为训练集,第 部分得分为 分的数据作为测试集。实验评价标准及参数设置实验采用 指标评估摘要生成的质量。是基于摘要中 的共现信息给出摘要的评分,是一种面向 召回率的评价方法。其基本思想为先由多个专家分别生成人工摘要,构成标准摘要集,再将系统生成的自动摘要与人工生成的标准摘要对比,通过统计二者之间重叠的基本单元(元语法、词序列和词对)数目,来评价摘要的质量。该方法现已成为自动评价技术的通用标准之一。针对 数据集,实验使用大小为 的词典,词向量维度为,隐藏层单元为,批大小设置为,输入文章字符最大长度为,输出文章字符最大长度为。在训练过程中,编码器与解码器词向量共享参数,使用全局门控网络和 优化器,初始学习率设置为,神经网络丢弃率设置为。实验对比本文模型为在 模型上添加全局编码器、局部卷积提取器、全局门控网络和指针生成器的模型,通过比较、的值来评判模型的差别。本文模型与当前主流模型的对比实验结果见表。表 中,使用 作为编码器,直接将最后状态传入解码器,解码期间不使用上下文。使用 作为编码器,解码期间使用上下文,编码器的所有组合作为解码器的输入。是一种基于注意力机制的 模型,使用 作为编码器,解码器采用生成模式和拷贝模式。采用语义相关性,构造相似度函数评估原文本的语义向量与生成的摘要之间的相似度,编码器采用。将阅读理解模型应用在文本摘要任务上,取得了一定的效果。也是一种基于注意力机制的 模型,但是增加了潜在结构向量来学习目标摘要的潜在结构信息,以提高摘要质量。同样,也