分享
基于TextCNN-Bert融合模型的不良信息识别技术.pdf
下载文档

ID:3075222

大小:1.16MB

页数:5页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 TextCNN Bert 融合 模型 不良信息 识别 技术
年第 期(第 卷总第 期)基于 融合模型的不良信息识别技术裴卓雄 杨 敏 杨 婧(国家计算机网络应急技术处理协调中心 北京 国家计算机网络应急技术处理协调中心山西分中心 山西 太原)摘 要:敏感领域的不良信息具有极强的迷惑性和欺骗性 腐蚀人们的思想 影响人们的价值观和判断能力 危害社会安全 研究敏感领域不良信息的识别技术具有深远意义 通用的识别技术忽略了背景知识和隐喻问题 直接应用于敏感领域不良信息识别效果较差 提出一种基于 的融合模型 通过敏感领域主题识别和情感隐喻识别实现对敏感领域不良信息的文本识别 实验结果表明 该模型在准确率、评分等指标方面取得了良好的结果 相较于现有模型有显著提高关键词:敏感领域 融合模型中图分类号:文献标识码:/引用格式:裴卓雄 杨敏 杨婧.基于 融合模型的不良信息识别技术.网络安全与数据治理():.(/(/)/():.:引言随着互联网行业蓬勃发展 网络上不良信息的泛滥引发了诸多社会问题 特别是历史、时政新闻等敏感领域的不良信息 通过编排、篡改、杜撰、伪造的方式具有极强的迷惑性和欺骗性 腐蚀人们的思想 影响人们的价值观和判断能力 危害社会安全 文本作为主要传播方式 研究敏感领域不良信息的识别技术具有深远意义自然语言处理技术()能够对文本进行深入分析和理解 从而实现文本的分类和识别 提出一种用于文本分类的卷积神经网络模型 可以在一定程度上避免梯度消失的问题 而且在处理短文本和固定长度文本时表现良好提出了文本分类模型 同时结合了卷积神经网络和循环神经网络的优点 比较不同循环神经网络模型在文本分类任务中的性能 表明了 模型在文本分类的优势 提出了 模型 该模型是一种基于 网络的预训练模型 可用于自然语言处理任务 如文本分类、语言推断等 提出了一种基于双向情感表情符号嵌入和基于注意力的 的投稿网址:年第 期(第 卷总第 期)情感分析方法 该方法使用双向 来学习句子中的上下文信息 使用注意力机制来加强对重要信息的关注 使用情感表情符号来增强情感分类的精度 李志杰提出一种基于 和 的联合模型 捕捉文本中的上下文关系和局部特征 提高短文本分类的准确性 提出 和人工神经网络 组成的混合模型 通过上下位词的概念获取新闻的语义并映射到 模型上 提升对新闻文章分类的准确性提出了一种基于 的混合模型 用于提高电影评论情感分析的准确性 该模型利用 提取局部特征 则用于学习序列信息 从而结合了两种模型的优点敏感领域属于专业领域 不良信息的识别技术研究十分有限 通用的识别技术可以直接应用于识别 但存在以下问题:一是领域特定语言和术语问题 敏感领域具有丰富的领域特定语言和术语 这些语言和术语可能对于通用模型不易理解 从而导致文本识别准确率下降二是背景知识问题 敏感领域涉及敏感事件、人物和背景等方面的知识 这些知识对于模型来说可能是未知的需要进行特殊的处理才能进行识别和理解 三是文本复杂性的问题 敏感领域文本非常复杂 包含大量的隐喻、比喻和引申意义 这些都需要模型具备识别和理解的能力因此 本文将敏感领域不良信息的识别问题转化为敏感领域主题识别任务和情感隐喻识别任务 提出一种基于 融合模型 既利用 对关键词和局部特征更加敏感的优势 准确识别敏感领域的特定语言和术语 又能利用 的预训练能力和自注意力机制 提升对隐喻、比喻和引申意的识别 实验结果表明本模型在准确率、召回率、精确率等方面识别效果良好 词向量词向量技术是一种将文本中的单词或短语表示为向量的技术 基于 技术实现文本分类的第一步就是利用词向量表示文本 传统的 方法是基于离散符号表示的 即将每个单词表示为一个唯一的标识符或索引这种方法没有考虑到单词之间的语义关系 因此无法捕捉到单词之间的相似性和相关性 而词向量技术通过将每个单词表示为一个向量 使得语义上相似的单词在向量空间中距离较近 从而可以更好地捕捉到单词之间的语义 关 系如、等 模型核心思想是将每个词表示为一个向量 通过计算词向量之间的余弦相似度来衡量词之间的相似度 是一种基于全局词频统计的词向量学习方法 将单词的共现信息转化为向量空间中的距离关系 的核心思想是通过训练深度双向语言模型来生成上下文相关的词向量表示 优点在于能够捕捉单词在不同上下文中的语义和语法信息 从而提高自然语言处理任务的性能 敏感领域识别模型本文提出的 融合模型如图 所示 模型输入为经过预处理的文本序列 ()预处理过程包括分词、词性标注和去除停用词 输出为敏感领域的判定结果 识别模型包含敏感领域主题识别和情感隐喻识别两个模块 若敏感领域识别为假 则判定与敏感领域无关 为非敏感文本 若识别为真 则作为情感隐喻识别的输入进行判定 若情感隐喻识别为真 则判定为不良信息 若判定为假 则判定为一般信息图 敏感文本识别模型 敏感领域主题识别模型 词向量微调 特征领域词库微调是指在特定领域的词库上对已经训练好的 模型进行微调 以得到更适合该领域的词向量如图 所示 首先准备敏感领域语料和公开的大规模语料 其次使用大规模的语料库训练通用的 模型 得到通用的词向量表示 然后获得敏感领域的专业术语和常用词汇 构建领域词库 最后对领域相关的词向量进行微调更新图 词向量微调本文结合敏感领域词汇特点 提出基于 算法的敏感领域词库构建算法 通过统计词频和词性分析的方式获取领域词汇一个词汇在敏感领域文本中出现的频率是判断其与该敏感领域相关性的重要特征 统计词频的公式如下:人工智能 年第 期(第 卷总第 期)()领域词性 其中 表示人名 表示地名 表示机构团体名称 表示其他专有名词 表示缩略语 人物、机构、事件、时间、地点等信息在敏感领域具有特殊意义 卷积神经网络 如图 所示 第一层为输入层 用于接收输入的文本序列 将其转化为词嵌入向量 每个单词对应一个向量 并将这些向量按序列顺序组成一个矩阵 第二层为卷积层 通过多个不同大小的卷积核对输入的文本矩阵进行卷积操作 从而提取文本的局部特征 第三层为池化层用于压缩特征图的维度和提取重要的特征 第四层为全连接层 将池化层的输出连接到一个或多个全连接层 用于学习特征之间的关系和进行最终的分类 最后一层为输出层 输出结果为敏感领域和非敏感领域两个类别图 卷积神经网络 情感隐喻识别模型敏感领域不良信息表达内容隐晦 具有隐蔽性和迷惑性外套的包装 与正常内容具有极强的混淆性 因此准确识别出敏感领域不良信息的关键在于能否识别语义的隐喻 ()是一种预训练的自然语言处理模型 适用于语义隐喻的识别和理解如图 所示 本模型的输入为敏感领域的预处理文本 ()输出为判定结果第一步是将输入的文本序列进行词向量处理 第二步是经过 编码层提取文本中的语义信息 该层由多个 组成 每个 由多头自注意力机制和前馈神经网络组成 第三步经过 预训练任务层 提取深层次的语义信息 最后经过 函数实现文本的分类 输出不良信息和一般信息两种标签本文提出的情感隐喻识别模型 需经过 预训练和 模型微调两个步骤得到 预训练语言模型 的预训练过程分为两个阶段 分别是掩码语言建模()和 下 一 句 预 测()阶段中 输入一段文本 并将其中的部分单词替换为 或其他随机图 情感隐喻识别模型单词 模型的目标是预测这些被替换的单词 阶段中 输入两个句子 并预测这两个句子是否是连续的 该任务的目的是让模型理解两个句子之间的关系本文采用 发布的开源预训练模型 这是基于 数据集训练的 模型包含 层、个隐藏单元和 个注意力头 适用于中文文本分类等任务 模型微调 模型微调是指在预训练阶段基础上 将模型进投稿网址:年第 期(第 卷总第 期)一步训练以适应具体任务的过程 本文将敏感领域的一般信息和不良信息作为训练集和测试集进行输入 根据损失函数和评价指标来对模型进行训练和调优 模型微调时需要用到交叉熵损失函数:()()()()其中 表示样本 的标签 正类为 负类为 表示样本 预测为正类的概率 实验及分析 实验数据本文数据集分为三个部分:第一部分实验数据是非敏感领域数据 数据来源于搜狗实验室的全网新闻数据本文从中筛选出汽车、科技、健康、体育、房产、教育、旅游、文化、时尚共 个类别 每个类别约包含 篇文本 第二部分实验数据是敏感领域一般信息数据 第三部分是敏感领域不良信息数据经过人工处理和标注 数据集分布情况为非敏感领域数据 万条语句 敏感领域一般信息数据 万条语句 敏感领域不良信息数据 万条语句 同时 按 的比例将标注数据集划分为训练集、验证集和测试集 实验设计 基线模型为了验证基于 融合模型的不良信息识别方法的有效性 选取、作为基线模型 实验环境与模型参数设置本文应用的深度学习框架为 服务器操作系统为 使用深度学习框架 开发 且其底层支持为 模型参数设置如表、表 所示表 模型参数参数值词向量维度 (丢弃率)表 模型参数参数值词向量维度 (丢弃率)评估方法实验采用的评价指标为准确率()、精确率()召回率()和 值 混淆矩阵如表 所示表 混淆矩阵实际值预测值正类负类正类负类准确率是指所有预测为正类占总数的比例 ()召回率是指所有正确预测为正类占全部实际为正类的比例 ()精确率是指预测为正类的样本中 实际为正类的样本所占的比例 ()值综合了精确率和召回率 把 和 的权重看作是一样的 是基于两者的调和平均 通常作为一个综合性的评价指标 值越高 代表模型的性能越好 ()实验结果如表 所示 本文提出的 融合模型在评价指标方面优于、等分类模型、的 明显低于其他指标 原因在于模型无法理解深层次语义 导致将敏感领域一般信息判定为不良信息 模型指标低于本文提出模型 原因在于其对敏感领域专有词汇不敏感 导致将网友吐槽等不相关内容判定为不良信息表 各模型识别效果对比 人工智能 年第 期(第 卷总第 期)结论本文提出一种基于 融合模型的识别方法 相比传统方法 能够更准确地识别敏感领域的术语和隐喻内容 大幅提升识别效果 未来的研究可以探索如何引入更强大的大语言模型 例如 或 等这些模型在文本生成和理解任务上表现出了卓越的性能通过引入这些最新的大语言模型 可以为敏感领域不良信息识别效果带来更大的提升和改进参考文献 郑博熙 程达王.网络空间意识形态斗争的特征分析.网络安全技术与应用 ():.:./:./:.:.:./:.李志杰 耿朝阳 宋鹏.联合模型的短文本分类研究.西安工业大学学报 ():./().:.():.:.:/():./:.(收稿日期:)作者简介:裴卓雄()男 硕士 工程师 主要研究方向:信息安全、自然语言处理杨敏()男 工程师 主要研究方向:信息安全杨婧()女 硕士 工程师 主要研究方向:信息安全投稿网址:

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开