分享
基于话语主题的对话文本摘要.pdf
下载文档

ID:2641210

大小:1.76MB

页数:3页

格式:PDF

时间:2023-08-20

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 话语 主题 对话 文本 摘要
信息通信基于话语主题的对话文本摘要刘东奇,王宏生(沈阳工业大学信息科学与工程学院,辽宁沈阳110 8 7 0)摘要:对话文本摘要任务是从一段拥有两位及以上参与者之间的交流话语中提炼出精简的内容,以便他人可快速了解对话的全过程。相对于传统的新闻式文本,对话文本通常具有结构复杂、信息来源混乱等难点。因此,传统的文本摘要模型并不能适配对话文本的结构,无法生成高质量的摘要内容。为此,文章提出了一种针对对话文本结构所改进的摘要生成方法,通过解析对话文本中的话语、说话人、话语主题三个元素,构建对话结构图。使用微调的Bi-LSTM对对话结构图中的节点以词为单位编码,通过基于Transformer模型的异构图编码器对对话结构图进行图级编码,使用带有注意力机制和指针网络的解码器实现摘要内容的生成。主要解决对话文本摘要中出现的信息来源混乱和人称指代错误问题。实验结果显示,本文的模型在生成摘要的质量上有一定提高。关键词:对话文本;对话结构;文本摘要;异构图编码中图分类号:TP393(School of Information Science and Engineering,Shenyang University of Technology,Shenyang 110870,Liaoning)Abstract:The task of dialogue text summary is to extract concise content from a conversation between two or more participants,so that others can quickly understand the whole process of dialogue.Compared with traditional news text,dialogue text usuallyhas difficulties such as complex structure and confusion of information sources.Therefore,the traditional text summary modelcannot adapt to the structure of the dialogue text and cannot generate high-quality summary content.To this end,this paper pro-poses an improved summary generation method for the structure of the dialogue text,which constructs the dialogue structurediagram by analyzing the three elements of the discourse,the speaker and the discourse theme in the dialogue text.The fine-tun-ed Bi-LSTM is used to encode the nodes in the dialog structure diagram in terms of words,the heterogeneous graph encoderbased on the Transformer model is used to encode the dialog structure diagram at the graph level,and the decoder with attentionmechanism and pointer network is used to generate the summary content.It mainly solves the problems of confusion of infor-mation sources and personal reference errors in the dialogue text summary.The experimental results show that the model in thispaper improves the quality of the summary.Key words:dialogue text;dialogue struction;text summary;heterogeneous map coding1 引言对话文本摘要是文本摘要中的一种,它的主要目的是从一段对话交流的文本中总结出整段对话的关键内容,便于他人快速的完成梳理。近些年,由于在线会议、在线咨询、在线医生问诊等场景的普遍出现,关于对话文本摘要的研究获得了较多的关注。但由于对话文本和传统的新闻式文本在结构与内容特点上有很多不同之处。首先,对话文本是交互式结构,内容由多个发言者不断交替产生,而新闻式文本大多是单一发言者的论述式结构。其次,对话文本中的关键信息较为分散,需要总结多句甚至是整段话才可以分析出它的中心内容,新闻式文本中的关键信息则较为集中,甚至文本中的某句话就可以代表整段话的中心内容。考虑到对话文本和新闻式文本的差异,若是单纯的采用解决新闻式摘要的方法来处理对话文本摘要问题会出现摘要过长、关键信息不全等问题,严重影响了摘要生成质量。针对这一问题已有一些有效的解决方法,Zhao等人开发了基于自适应学习的模型,利用主题分割话语引导摘要的生成。Chen和Yangl3引入了两个模型注释的对话结构视图辅助编码话语。2023年第0 5期(总第2 45期)文献标识码:A文章编号:2 0 9 6-9 7 59(2 0 2 3)0 5-0 17 7-0 3Dialogue Text Abstract Based on Discourse ThemeLIU Dongqi,WANG Hongsheng决对话文本结构难处理的问题。2基于话语主题的对话文本摘要模型本节对实验中所构建的对话文本摘要模型进行详细的介绍,模型整体结构如图1所示,共分为三部分:对话结构图构建模块、编码器模块、解码器模块。对话结构图构建模块将对话文本解析成发言人、话语、主题词三种类型的元素,以它们为图节点构建对话结构图。编码器模块将对话结构图中的所有节点进行节点级编码和图形级编码。解码器通过注意力机制和拷贝机制实现摘要的生成。2.1对话结构图在一段对话文本中,通常有“发言人”和“话语”两种元素,结构如图2 所示,“发言人”表示了每句话的来源,“话语则是内容的主体部分,是最大的信息来源。通过按照“发言人:话但现有的对话文本摘要模型针对对话文本的结构没有特别的设计,最终生成的摘要仍会出现人称指代性错误。为解决这一问题,本文设计了一种基于说话人-话语-主题的对话文本摘要模型,通过对对话文本结构拆解,将对话文本转化成对话结构图,使模型学习到对话文本中的结构信息,着重于解收稿日期:2 0 2 3-0 2-0 1作者简介:刘东奇(19 9 5-),男,硕士,主要研究方向:机器学习与智能软件;王宏生(19 6 4-),男,副教授,硕士生导师,主要研究方向:软件设计自动化,智能信息检索。177Changjiang Information&Communications语”的结构解析出这两种基本元素。对话节点编码器图1模型结构图Fiona:heyAnna:helloFiona:can yougowithmetoadoc?Fiona:IneedsupportAnna:yeahsureFiona:thank yousomuchFiona:itstomorrowat8a.m.八发言人图2 对话文本结构图另外,根据我们日常交流的习惯,某些话语会有一个特定的主题,表明它们在整个对话过程中的进程。在摘要生成的过程中引入主题词能够引导摘要内容的方向。本文参考文献4的方法提取对话文本中的主题元素。将每个发言人节点与它们所对应的话语节点连接,使模型在编码阶段能够考虑到每句话的信息来源,再以主题词节点为纽带,将它们所共同关联的话语节点连接,构成对话结构图,如图3所示。发言人1发言人22.2异构图形编码器编码阶段分为:节点编码、图形编码两个过程,图中的每一个节点viEv由n个单词组成wi,W2,w,节点编码器采用Bi-LSTM生成正向和反向两个隐藏状态序列(h,hz,hv)和(hi,hz,.ho,)。图形编码阶段为对话结构图编码,解析整个对话结构图的信息,使模型在学习和训练的过程理解图中各节点之间的关系,获取并更新节点的表示。实验中构建的对话结构图有多种不同类型的节点,节点之间也有多种不同类型的关系,属于异构图,传统的图形编码器在更新节点间的权重时将所有节点都视为同一种类型,因此采用HGT(5(Heterogeneous Grap-刘东奇等:基于话语主题的对话文本摘要hTransformer)作为图形编码器,它能够按照节点的类型单独的更新节点间的权重,微调结构后很容易应用到本实验的模摘要型中。HGT的结构分为:异构互注意力机制、异构消息传递、消拷贝机制息融合三部分,选择话语节点(utt)作为需要聚合的目标节点,选择发言人节点(s1)和主题词节点(s2)作为源节点(s)。注意力机制在异构互注意力机制模块,首先从(1-1)层的目标节点和源节点转化关键向量(k)和查询向量(q)。LSTMk,=.lin(ng-)解码器Heterogeneous GraphTransformer编码器话语话语1话语2话语3话语4图3对话结构图(1)(2)通过建立基于边的权重矩阵计算utt与s之间的非归一化分数,最后对于每个目标节点(utt),计算它与每个源节点(s)之间的注意力得分ATT。(s,utt)=(k,WATTqut)ATT(s,utt)=Softmax(B(s,utt)在异构消息传递模块,将源节点的表示投影到向量中,通过基于边的权重矩阵获得消息传递向量。在消息融合模块,同时融合来自消息传递模块中主题词与发言人传递来的消息。m,=Min(ng-)(5)Mess(s,tt)=msWMsG(6)ht=(ATT(s,utt)Mess(s,utt)+Mess(s2,utt)(7)2.3基于指针网络的解码器使用带有拷贝机制和注意力机制的LSTM网络作为模型的解码器,在解码的过程中,每个时间点的解码过程会使用上一个时间点的词嵌入X.和上下文向量C.来计算新的隐藏层状态。(8)3实验主题13.1数据集实验选用SAMSUM数据集测试模型的性能,该数据集主要包含了日常生活中的对话场景,包括见面问候、人与人之间的寻求帮助等场景,是由人工标注的对话文本摘要,有较高主题2的摘要质量,其中训练集数量为147 32 个,验证集为8 18 个,测试集为8 19 个。3.2模型评价实验采用 ROUGE(Recall-Oriented Understudy for GistingEvaluation)对模型的性能进行评价,ROUGE通过测算标准摘要和生成摘要之间的匹配度来评价生成摘要的质量。表1实验评价结果模型Rouge-1Sequence2Sequence35.72TransformerPGN36.77Transformer37.37Bert+Transformer40.03本模型40.08(3)(4)S=LSTM(Xt-1,Ct-1)Rouge-211.3412.8718.4417.0117.98Rouge-L31.2732.1832.7439.1239.76178,信息通信基于 AJAX技术和 RSS 技术的网络考试系统设计(南昌应用技术师范学院,江西南昌330 10 8)摘要:为提高考试系统在运行中的流畅度,引进RSS技术与AJAX技术,以某高校为例,对网络考试系统展开设计。参照B/S三层架构,开发网络考试系统架构。选用英国DGFSG公司开发的数据库存储器、IHGFS44FA无线监控设备,作为网络考试系统的主要设备;引进RSS技术,

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开