基于BERT BiLSTM Attention的对抗训练新闻文本分类模型.pdf

下载文档

ID：3036210

大小：3.10MB

页数：5页

格式：PDF

时间：2024-01-18

 收藏分享赚钱赏

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 积分 0人已下载

文本预览

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。
网站客服：3074922707

基于BERT BiLSTM Attention的对抗训练新闻文本分类模型基于 BERT Attention 对抗训练新闻文本分类模型

第卷第期年月西安文理学院学报(自然科学版)()文章编号:()基于的对抗训练新闻文本分类模型汪辉于瓅(安徽理工大学计算机科学与工程学院安徽淮南)摘要:新闻文本分类是长文本分类的典型问题因此提取词与词之间的关系特征就尤为重要.提出了基于双向编码表示的预训练模型()和双向长短时记忆网络()以及注意力机制的对抗训练分类模型().将预处理新闻文本数据经过进行训练得到词嵌入编码在训练后的词向量级别上进行扰动达到数据增广的效果以此来进行对抗训练之后通过双向长短时记忆网络对数据集进行编码提取双向语义表征.本文提出的模型值在数据集上比模型提升了.关键词:新闻文本分类对抗训练中图分类号:.文献标志码:():.()().收稿日期:基金项目:年安徽省重点研究与开发计划项目()作者简介:汪辉()男安徽桐城人安徽理工大学计算机科学与工程学院硕士研究生主要从事自然语言处理研究.通讯作者:于瓅()女安徽宿州人安徽理工大学计算机科学与工程学院教授博士主要从事区块链图像处理数据挖掘研究.:研究概述新闻文本分类一直以来都是自然语言处理()领域中非常重要的任务之一.随着等人提出空间词向量表示深度学习成为的主要研究方向.年以为架构针对任务提出了深度预训练模型.由于其出色的性能在的下游任务中非常流行.这类模型主要利用大范围的无标注数据训练出丰富的上下文语义信息.能够很好的提取词语之间的联系大部分研究者都向预训练模型靠拢.在各种自然语言任务的榜单上有很多模型都是基于及其变体.自之后如何将训练好的预训练模型应用到下游任务是一个非常值得研究的问题.本文提出了基于双向编码表示的预训练模型和双向长短时记忆网络()以及注意力机制模型的对抗训练分类模型更好的将应用到文本分类任务上.基于的对抗训练新闻文本分类模型.模型结构基于和预训练模型编码可以获取新闻文本的更深层次的语义特征在文本分类任务中取得了比较好的效果.在此模型基础上增加了对抗训练本文提出了基于和对抗训练新闻文本分类模型如图所示.图模型架构.模型训练()数据预处理.结合新闻领域的词汇和中文分词工具实现新闻文本分词预处理.对于覆盖率太高的文本对模型特征提取没有贡献.因此构建了停用词库比如“的”等无意词以及中文符号(逗号、句号和引号等)都会进行删除操作在此基础上我们设置:将出现次数小于次的词进行删除.基于预处理好的文本结构化特征构建新闻领域的词库并对原始文本进行数字表示.()词向量表示.输入一句新闻文本序列新闻文本其中表示文本中的西安文理学院学报(自然科学版)第卷第个词汇.词向量包含三个部分:基于当前词对于给定维度的词嵌入向量表示为.基于当前词属于句子部分的向量表示为.基于当前词属于句中位置的向量表示为.最终基于预训练后的新闻文本向量表示为:()()对抗训练方式:E()()()式中:表示训练集表示扰动空间 ()是样本的值内部的表示在扰动空间内找到使得最大值的扰动外部的表示找到使得模型鲁棒性最好的参数优化过程是和交替执行.扰动计算公式:()式中:为权重为梯度.通过公式计算得到的扰动加到原词向量上最终得到对抗训练样本对抗训练样本词向量表示为:()()网络层是由两个单向的组成分别自前向后、自后向前双向编码每个公式如下:()()()()()()()()()上式中:为函数为权重为上一个时间步的输出为上一个时间步的细胞状态表示时刻的输入表示该网络的最后输出.将一个新闻文本新闻文本经过前层编码得到的向量序列 .经过正向与反向得到隐状态序列()和()将两种隐状态拼接得到新的隐状态序列:()我们使用双向长短期记忆网络经过双向编码后充分提取新闻文本上下文语义的重要信息保证长距离文本特征不丢失.该层的输出为:.().对上层生成的隐状态序列:特征加权.针对新闻文本数据例如“公园”经过计算构建获取内部结构在整体的权重更大这样可以更好地提取语义特征.为了避免在计算过程中看到未来信息加入了掩码()机制计算公式如下:()()()()公式中:为隐状态序列线性变化为权重和相等表示偏置.()模型输出.将上一层的输出经过线性变化输出维度变为数据集的标签类别数量使用函数进行分类取最大概率为预测值.()()()()()上式中:为层的输出为权重同式()表示输入的新闻文本句子.()目标损失函数.模型训练过程中本文提出新闻文本分类问题是一个多分类的问题.最终预测标签与真实标签的损失函数如下:()()()上式中:为样本数量为标签数量表示样本的标签为则取值为否则取值表示模型预测样本属于类别的概率为正则化超参数.第期汪辉等.基于的对抗训练新闻文本分类模型实验.实验数据新闻数据具有类型多样性、文本长和分类复杂等特点比如常见的新闻文本类型可分为体育、股票、科技、娱乐、时政和社会等十余种类别.不同类型新闻的文字量以及新闻文本的长度相差很大.本文采用的是数据库获取的万条新闻数据用于训练模型万条新闻数据作为测试.超参设计以及评价标准.超参设置表模型参数超参数设置大小.本次实验中的模型使用了的基准参数层的和维度的词向量.其他的对比模型词性量设置为维训练次数设定为次分类器的核函数为线性核函数.具体参数见表.评价标准结合精确率()和召回率()的评价标准具体公式如下:().实验.不同词向量对模型结果表不同词向量对模型结果的影响模型/.其他模型结构不变的情况下基于、和词向量生成对模型性能影响对比实验结果见表.实验结果表明的词向量训练方式分类效果较差词向量的性能适中基于模型的性能表现最好.对抗训练对模型的影响为了验证对抗训练能够提升模型效果.我们将万文本数据经过模型训练获得词向量分别用有对抗训练的模型和无对抗训练模型进行训练.再用万文本数据验证对抗训练在文本数据集上对于本文模型的提升效果.训练过程中的部分损失值变化如图所示.实验中发现:对抗训练模型和原模型相比较前者在收敛上更快收敛效果更明显.在此基础上使用万数据集进行测试测试结果如图所示.左边轴表示预测的样本数量右边轴表示值横坐标表示标签红色折线为加入对抗训练模型黑色折线表示没有加入对抗训练模型.图对抗和无对抗模型值收敛对比图对抗和无对抗模型测试结果对比在实验中发现加入对抗训练的模型对比没有加入对抗训练模型更具鲁棒性虽然在有些标签预测不及无对抗训练模型但是折线更平滑平均值更高.具体结果如表.不同分类模型的对比在该实验中对照模型有传统的机器学习方法例如:基于的分类方式和算法结合的分类模型.对照的深度学习模型有:模型基于提取短距离的西安文理学院学报(自然科学版)第卷上下文特征模型和模型等.结果见表.表不同方法对新闻文本分类效果对比模型/.测试发现传统的机器学习方法在财经类新闻的准确率非常低.主要是传统的机器学习方法不能够很好地捕捉词语之间的语义关系.相比较深度网络模型虽然可以快速构建分类模型但是分类效果不明显策略由于卷积核的设定导致很难捕捉长距离语义单向的不能捕捉后向语义信息在表达效果上不如表现效果良好但是依旧不能完全捕捉长文本信息.本文提出的方法不仅能够更好的根据新闻文本获取动态词向量而且结合对抗训练提升了模型鲁棒性再结合机制更好地提取新闻文本中词汇关系与其他模型相比达到了最好的值(表).结语回顾了最近汉语中性能较好的预训练语言模型对预训练模型在文本分类任务的融合应用进行了研究.在这项研究中我们创建了一种基于模型融合的模型应用于新闻文本分类.该方法在模型的基础上考虑了新闻文本的上下文信息使用更好地提取文本特征在训练中使用了对抗训练增加模型鲁棒性.实验结果表明本文提出的方法相比较其他模型在数据集上显著提升.在下一步工作中我们希望研究一种有效的预训练任务进一步提高预训练语言模型的性能而不仅仅是对抗训练.此外我们希望设计更有效的语言建模方法利用大规模的无监督数据来获取语义信息.参考文献檀莹莹王俊丽张超波.基于图卷积神经网络的文本分类方法研究综述.计算机科学():.:.:.:.:.:.:.:.:.:.():.:.():.:():.鲁威.基于多因素特征的文本分类的研究.成都:电子科技大学.().:.滕金保孔韦韦田乔鑫等.基于与混合模型的文本分类方法.计算机工程与应用():.责任编辑张蓉珍第期汪辉等.基于的对抗训练新闻文本分类模型

侵权申述举报

此文档下载收益归作者所有

下载文档

基于BERT BiLSTM Attention的对抗训练新闻文本分类模型.pdf

基于BERT BiLSTM Attention的对抗训练新闻文本分类模型.pdf

猜你喜欢

你可能关注的文档

相关文章

热门推荐