分享
融合多路注意力机制的语句匹配模型.pdf
下载文档

ID:2719756

大小:2.21MB

页数:8页

格式:PDF

时间:2023-09-17

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合 注意力 机制 语句 匹配 模型
第 卷第 期重庆邮电大学学报(自然科学版).年 月 ().:./.融合多路注意力机制的语句匹配模型收稿日期:修订日期:通讯作者:王 进 .基金项目:国家重点研发计划专项():()王 进刘麒麟马樱仪孙开伟胡 珂(重庆邮电大学 数据工程与可视计算重庆市重点实验室重庆)摘 要:为了增强语句内关键信息和语句间交互信息的表征能力有效整合匹配特征提出一种融合多路注意力机制的语句匹配模型 采用双向长短时记忆网络获取文本的编码信息通过自注意力机制学习语句内部的关键信息将编码信息和自注意力信息拼接之后通过多路注意力机制学习语句间的交互信息结合并压缩多路注意力层之前和之后的信息通过双向长短时记忆网络进行池化获得最终的语句特征经过全连接层完成语句匹配 实验结果表明该模型在 和 数据集上进行的自然语言推理任务、在 数据集上进行的释义识别任务和在 数据集上进行的问答语句选择任务中均表现出了更好效果能够有效提升语句匹配的性能关键词:语句匹配注意力机制深度学习中图分类号:文献标志码:文章编号:()(.):.:引 言语句匹配是比较两个句子之间关系的任务是信息检索、自动问答、释义识别和自然语言推理等任务的基础技术随着神经网络模型的发展对语句匹配问题的研究逐渐从传统语句匹配模型向深度语句匹配模型转移 传统的匹配技术只是简单地判断单词是否相似同时需要人工提取相关特征导致模型泛化能力较差 深度语句匹配模型结合词嵌入技术从语义层面解决了词语匹配的多元性问题 近几年提出的预训练模型如基于 的双向编 码 模 型()和优化的 方法()等可以有效提升语句匹配的性能 然而预训练模型结构复杂、参数多训练时间长 深度语句匹配模型可以自动提取匹配特征代价小效果更好并且结构灵活参数少训练更容易深度语句匹配模型有两种流行的框架 第 种基于 架构使用神经网络对输入向量编码然后对编码向量做匹配但未捕捉到句子间的交互信息 第 种是 模型先对句子内较小单元(如单词)做匹配然后聚合为一个向量再做匹配能够捕捉到句子间交互特征但捕捉到的交互特征不够没有考虑语句内的关键信息并且整合匹配特征存在缺陷本文提出了一种融合多路注意力机制的语句匹配模型旨在解决传统模型捕捉到句子交互特征不足以及忽略句子内关键信息等问题 模型采用了词嵌入层和双向长短时记忆网络()对输入进行编码同时引入了句内自注意力机制和 种句间交互注意力机制从多角度、高层次捕捉句子间的交互特征并结合后输入到 中进行聚合最终通过全连接层得到语句匹配得分 在 个基准数据集(、和)上与经典深度语句匹配模型对比的结果表明本文提出的融合多路注意力机制的语句匹配方法比传统深度语句匹配模型表现更好 相关工作深度语句匹配的研究可以总结为 个阶段模型:单语义模型、多语义模型、匹配矩阵模型和深层次语句交互匹配模型单语义模型使用简单神经网络编码句子无法捕捉局部信息 比如深层语义相似模型()使用 层网络对文本进行向量化多语义模型能够补充单语义模型在压缩整个句子时的信息损失但很难将局部信息和全局信息有效地整合 比如一种基于多位置句子表示的深层语义匹配体系结构使用 处理句子实现多粒度考察句子的效果匹配矩阵模型让两段文本进行交互得到匹配信息再提取匹配特征来捕捉匹配中的结构信息比如基于图像识别的文本匹配()从 个角度构建相似度矩阵再用 提取特征深层次语句交互模型使用更复杂的 结构来挖掘多维度的交互信息 比如具有密集连接的重复和共同注意力信息的语句匹配结合、密集卷积网络和 机制提取特征再采用多样化的交互策略提取交互特征本文在增强序列推理模型()的基础上进行改进采用句内自注意力机制挖掘语句内关键信息采用多路注意力机制捕获语句间多维度的交互信息 以及深层次的结构信息再将多路注意力机制得到的多个交互特征有效地结合增强语句匹配的表征能力并实现对语句的高层次理解融合多路注意力机制的语句匹配模型.模型整体框架描述本文提出的融合多路注意力机制的语句匹配模型 模型主要包括 部分:自注意力机制层、多路注意力机制层以及聚合层 一条样本可以表示为()其中()和()为第 个待匹配的语句对和 分别为语句 和语句 中第 个词和第 个词语句 的长度为 语句 的长度为 表示 和 的关系用 表示样本总个数.编码层使用 或 将语句对 和 中的词映射成固定维度的词向量词向量表示为 和其中 语句 中第 个词的词向量同理第 期 王 进等:融合多路注意力机制的语句匹配模型将词向量输入到 进行编码 是 的变体能够结合输入序列在前向和后向两个方向上的信息 使用 对词嵌入矩阵编码可以获得更好的语义信息并能充分利用时序和上下文信息 将 前向输出和后向输出连接在一起作为新的语义表示可得()()()()()()式中、分别为语句、在 时刻 隐藏状态的输出图 融合多路注意力机制的语句匹配模型图.自注意力机制层注意力机制能够捕捉句子词语之间的语义和语法联系同时考虑上下文之间的联系 研究表明词级别的注意力机制在句子对建模中非常有效参考 思路计算句内自注意力匹配权重编码层的输出 可得 ()()()()()()()()()式中:为注意力权重系数权重越高说明该词所带信息在句内越关键 为 经过加权求和的结果通过非线性函数生成表征向量 将编码层的输出 和自注意力层的输出 拼接起来作为下一层的输入表示为 ().多路注意力机制层大多数语句交互模型只使用一种句间交互注意力机制导致捕获到的交互特征不完整 本文使用 种句间注意力机制来比较单词对即连接、双线性、点积和余弦注意力机制以捕获多维度、深层次的交互特征连接注意力机制表示为()()双线性注意力机制表示为()点积注意力机制表示为()()余弦注意力机制表示为()()归一化公式为 重 庆 邮 电 大 学 学 报(自然科学版)第 卷()/()()通过()()式获得初始权重 后通过()式得到 归一化加权和向量表示分别是、和 余弦距离的计算公式为()().聚合层为了保留原始信息增强关键信息、捕获矛盾等推理关系本文将多路注意力机制的匹配信息聚合起来可得()()()()()式中:为多路注意力机制层的输出为点积运算符为拼接运算符()为压缩函数采用不同的 可以得到不同的匹配特征在结合匹配特征时传统的简单拼接方法会导致维度过高使用压缩函数可以将特征缩减为标量并保留关键信息()表达式为()()每个 会得到一个三维向量将 个三维向量与 拼接得到新的特征向量 再将 输入到 中整合语句对之间的全局匹配信息采用平均池化和最大池化操作并将所有向量连接起来形成最终的定长向量 可表示为 ()()()将 放入多层感知分类器中以获得相应任务中每个标签的概率 实 验使用 个数据集对 个任务进行实验并进行消融实验以分析句内自注意力机制、多路注意力机制以及聚合层的有效性 实验运行环境如表 所示表 实验运行环境.名称实验环境编辑器程序语言.机 位操作系统 处理器 内存 显卡服务器 位操作系统 处理器 内存 显卡.参数设置使用预先训练的 向量来初始化单词嵌入并随机初始化词汇表外单词嵌入 多路注意力信息压缩之后采用一层全连接层进行降维该全连接层的维度为 非线性激活函数选择的是 函数 全连接层的维度为 非线性激活函数选择的是 函数 在训练期间不更新预先训练的词嵌入 为了验证单模型的实验性能对所有的模型进行 次实验去掉异常数据选择在验证集中工作最好的模型然后在测试集中进行评估 更多的参数设置如表 所示表 参数设置.参数名数值参数名数值.数据集本文在 个数据集中进行 种语句匹配任务来评估提出的模型性能数据集划分如表 所示表 中自然语言推理数据集()和扩大的自然语言推理数据集()属于自然语言推理任务问题答案对数据集()属于释义识别任务阅读理解数据集()属于问答语句选择任务第 期 王 进等:融合多路注意力机制的语句匹配模型表 数据集描述.数据集数据规模标签类别数训练集验证集测试集 训练集匹配样本不匹配样本 训练集验证集测试集 训练集验证集测试集 .对比方法将本文模型与经典深度语句匹配方法进行比较以验证模型的有效性如表 所示表 对比方法信息.缩写方法来源刊物双向多视角匹配模型 增强的序列推理模型 密集交互推理网络 多视角语义交叉模型 深层层次编码模型 深层双向交互网络.评估指标本文采用精确度()和平均倒数排名()作为评估指标精确度由被分配的样本数除以所有的样本数计算得到计算公式为 ()()式中:为判断正确且标签为正的样本数为判断正确且标签为负的样本数 为实际为正的所有样本数 为实际为负的所有样本数 为多个查询语句排名倒数的均值计算表达式为 ()()式中:为查询语句 的个数表示第 个查询语句第 个正确答案的排名.实验结果与分析本文在 和 数据集上评估提出的语句匹配模型使用精确度和参数量两个指标在 数据集上进行评估使用精确度在 数据集的匹配样本和不匹配样本上进行评估 参数量评估结果在一个数据集中得出不再进行对比表 为各模型在 上的评估结果 由表 可以看出本文提出的模型在 上表现优异相比于其他深层次匹配模型性能获得了明显提升在精确度方面达到了.与预训练模型 进行比较本文提出模型的参数量远远低于 不依赖任何外部知识仍然获得了有竞争力的性能表 各模型在 上的评估结果.模型精确度/参数量().().().().().().().本文模型.表 为各模型在 数据集上匹配样本和不匹配样本的精确度(表示进行了五折交叉集成学习后的模型下同)与其他深度匹配模型相比本文提出的模型在匹配样本中表现最好达到了.的精确度但在不匹配样本中略低于 模型 选择其他模型中表现最好的模型进行集成学习比较在匹配样本和不匹配样本中本文模型都优于 模型本文采用精确度作为评估指标使用 数据集评估语句匹配模型在释义识别任务中的性能表 为各模型的评估结果 本文提出的模型在单模型和集成学习方法中均表现出了最好的效果超过其他经典的深层次匹配模型本文模型在 数据集上进行问答语句选择任务的评估采用 作为评估指标表 展示了各模型在 数据集上的评估结果 与其他 重 庆 邮 电 大 学 学 报(自然科学版)第 卷经典深层次模型相比本文模型在单模型和集成学习方法中表现最好表 各模型在 上的评估结果.模型精确度/匹配样本不匹配样本().().().().().().本文.本文.表 各模型在 上的评估结果.模型精确度/().().().().().().本文.本文.表 各模型在 上的评估结果.模型平均倒数排名().().().().().().本文.本文.消融实现分析为了验证本文模型不同组件的有效性选择在具有代表性的数据集 上进行消融实验实验结果如表 所示 表 中“”表示从模型中删除该组件“”表示在模型中添加该组件 表示本文使用的自注意力机制 表示本文使用的多路注意力机制、以及 为多路注意力机制中用到的 种句间注意力机制 表示本文用到的聚合方式、为拼接聚合、为点积聚合、为相减聚合 表示本文用到的压缩函数 表示简单拼接表 本文模型在 上的消融实验结果.模型精确度/()本文.().().().().().()().()().()().()().().().().().在表()中为了验证本文使用的自注意力机制的有效性用常规的句内注意力机制对齐函数来替换本文的对齐函数可以看出本文使用第 期 王 进等:融合多路注意力机制的语句匹配模型的自注意力机制效果更好在表()表()中为了验证多路注意力机制的有效性进行了单个句间注意力机制和去除某个注意力机制的消融实验 可以看出多路注意力机制优于单一注意力机制并且去除任何一种注意力机制都会导致较差的效果这表明了多路注意力机制的有效性在表()表()中为了验证多路注意力机制 种聚合方式的有效性使用单独的聚合方式进行消融实验结果显示单独使用任何一种聚合方式都没有结合 种效果好在表()验证了压缩公式的有效性用常规的简单拼接多个特征向量方法 来替换本文方法结果显示本文的压缩方法效果更好 结束语本文提出的融合多路注意力机制的语句匹配模型使用句内自注意力机制计算语句中每个词向量的重要程度捕获语句内的关键信息 多路注意力机制比较两个句子中的单词对也就是 种句间匹配公式:连接注意力机制、双线性注意力机制、点积注意力机制、

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开