分享
融合字词特征的互联网敏感言论识别研究_闫尚义.pdf
下载文档

ID:2582750

大小:1.72MB

页数:10页

格式:PDF

时间:2023-08-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合 字词 特征 互联网 敏感 言论 识别 研究 尚义
2023,59(13)不少不法分子利用信息传播平台散播反动言论、传播色情信息、销售违禁物品等,这些敏感言论一旦大规模传播极有可能对不明真相的网民产生误导引发群体性事件或者舆论危机,甚至会将一些青少年引入歧途。融合字词特征的互联网敏感言论识别研究闫尚义,王靖亚,朱少武,崔雨萌,陶知众中国人民公安大学 信息网络安全学院,北京 100045摘要:互联网敏感言论与普通言论之间存在显著差异,为规避过滤规则,其语义较为隐晦,一词多义现象频出,不规范程度较高。为高效识别互联网中的敏感言论并对其进行准确分类,针对敏感言论的特点与现有模型的缺点,对文本卷积神经网络进行了改进,结合ALBERT(a Lite BERT)动态字级编码模型、文本卷积神经网络、多头自注意力机制与门控机制的优势,提出了一种融合字词特征的双通道分类模型ALBERT-CCMHSAG。该模型将文本的字级与词级语义信息、局部关键特征与上下文语义进行了充分提取与融合,以此提升敏感言论的分类效果。ALBERT-CCMHSAG模型在敏感言论数据集上、噪声敏感言论数据集、小样本敏感言论数据集上的表现均为最优,证明了该模型对敏感言论识别与分类能力更强,能应对噪声数据与适应训练数据不足的情况,鲁棒性更强。在酒店评论数据集上,该模型的性能同样优于对比模型,证明了模型在其他语料上也很可能具有优异表现。关键词:敏感言论识别;字特征;词特征;多头自注意力机制;门控机制文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2203-0301Research on Internet Sensitive Speeches Recognition Combining Features of Characters and WordsYAN Shangyi,WANG Jingya,ZHU Shaowu,CUI Yumeng,TAO ZhizhongSchool of Information Network Security,People s Public Security University of China,Beijing 100045,ChinaAbstract:Sensitive speeches on the Internet are quite different from ordinary speeches.In order to avoid filtering rules,they have a high degree of irregularity,more obscure semantics,and frequent multiple meanings of words.In order toefficiently identify sensitive speeches on the Internet and classify them accurately,according to the characteristics ofsensitive speeches and the shortcomings of existing models,the text convolutional neural network is improved.Combiningthe advantages of ALBERT(a Lite BERT)dynamic character-level encoding model,text convolutional neural network,multi-head self-attention mechanism and gating mechanism,a dual-channel classification model ALBERT-CCMHSAGthat combines features of characters and words is proposed.The model fully extracts and integrates the character-levelandword-levelsemantic information,local key features and contextual semantics of the text to improve the classificationeffect of sensitive speeches.The ALBERT-CCMHSAG model performs optimally on the sensitive speeches dataset,thenoisy sensitive speeches dataset,and the small-sample sensitive speeches dataset,proving that the model is more capableof recognizing and classifying sensitive speech,coping with noisy data and adapting to the situation of insufficient trainingdata,and being more robust.The model also outperforms the comparison models on the hotel reviews dataset,demonstratingthat the model is likely to perform well in other corpora.Key words:sensitive speeches recognition;characters features;words features;multi-head self-attention mechanism;gating mechanism基金项目:国家社会科学基金(20AZD114);CCF-绿盟科技“鲲鹏”科研基金(CCF-NSFOCUS 2020011);中国人民公安大学公共安全行为科学实验室开放课题基金(2020sys08)。作者简介:闫尚义(1998),男,硕士研究生,CCF会员,研究方向为自然语言处理,E-mail:;王靖亚(1966),女,硕士,教授,CCF会员,研究方向为自然语言处理、样本对抗;朱少武(1998),男,硕士研究生,研究方向为自然语言处理;崔雨萌(1998),男,硕士研究生,研究方向为自然语言处理;陶知众(1998),男,硕士研究生,研究方向为网络管控技术。收稿日期:2022-03-15修回日期:2022-06-28文章编号:1002-8331(2023)13-0129-10Computer Engineering and Applications计算机工程与应用129Computer Engineering and Applications计算机工程与应用2023,59(13)对敏感言论的治理既是网络空间治理的重要内容,又是信息化浪潮中我国的国家治理、政府治理、社会治理面临的重要课题1。敏感言论是指带有敏感政治倾向、暴力色彩、不健康色彩的不文明语2。按照其内容不同大致可以分为暴力、违禁、色情、反动四类。互联网敏感言论与普通言论存在很大不同,为规避过滤规则,其语义较为隐晦、一词多义现象频出、不规范程度较高,相较于普通言论,其语义信息更加难以理解。早期敏感言论的识别方式主要是利用敏感关键词对文本进行筛选3。随着深度学习技术的发展,其在文本分类任务中表现出良好的前景4。卷积神经网络(convolutional neural network,CNN)5与循环神经网络(recurrent neural network,RNN)6是最具代表性的文本分类模型。CNN对文本关键特征的提取效果优异,但忽略了上下文语义信息,且其池化层存在丢失关键信息的缺陷;RNN可以将文本长距离依赖与语序考虑在内,但局部关键特征提取效果不佳,由于其模型结构原因,进行特征提取时所消耗时间较多。另外,现有利用字词语义信息的模型也只是采用直接拼接或向量简单相加完成二者信息的整合,并未实现对文本字级和词级语义信息的有效利用与融合7。针对现有方法存在的缺点以及敏感言论的特点,本文对TextCNN8进行改进,结合ALBERT动态字级编码模型9、卷积神经网络、多头自注意力机制10与门控机制的优势,提出了一种联合字词特征的双通道敏感言论识别模型 ALBERT-CCMHSAG(ALBERT-convolution&cross-layer feature fusion&multi-head self-attention&gating mechanism)。本文的贡献以及创新点概括如下:(1)本文制作了一个新的敏感言论数据集,为后续的研究奠定基础。(2)为解决 TextCNN 模型只能提取文本局部关键信息和池化层存在丢失关键信息的缺陷,本文将跨通道特征融合操作与多头自注意力机制替换TextCNN的最大池化操作,改进后的 TextCNN模型可同时获取文本的局部关键特征与全局语义信息,且可以自适应地获取文本关键特征,提升模型对于敏感言论的理解与学习能力。(3)为解决现有模型不能实现对字词信息有效利用和融合这一问题,本文结合门控机制使字级和词级语义信息之间建立交互关系,自适应地获取二者中更为关键的信息。(4)本文所提模型在自建敏感言论数据集上、噪声敏感言论数据集、小样本敏感言论数据集上的表现均优于主流的深度学习模型,充分证明了本文模型能够胜任敏感言论识别与分类任务,能够应对数据噪声问题与适应训练数据不足的情况,模型的鲁棒性更强。在酒店评论数据集上,该模型的性能同样优于主流的深度学习模型,证明了模型在其他语料上也很可能具有优异表现。1关键技术概述1.1文本表示Mikolov等11在CBOW架构和Skip-gram架构基础之上,设计出了word2vec 模型。该模型将每个词映射成低维的实数向量,并且空间中向量的距离可以来表示其语义的相关度。2019 年,文献12提出了 ALBERT(a Lite BERT)字级动态编码模型。该模型在BERT12模型的基础上应用嵌入层参数因式分解和跨层参数共享两项关键技术,显著降低了BERT模型的参数量,同时,将BERT模型的NSP(next sentence prediction)任务换成更出色的 SOP(sentence-order prediction)任务,提升模型对于文本信息的学习能力。1.2TextCNNTextCNN中的卷积层可以有效地提取文本局部特征,但是其对文本长距离依赖关系与文本时序信息并不敏感。其最大池化操作可以用来筛选信息中的突出特征,使模型后续只依靠突出特征进行分类,以此来减少模型参数。但是明显或者突出特征并非是关键特征,非明显特征中也有可能存在影响分类结果的关键因素,最大池化策略存在丢失文本关键信息的缺陷。因此,有必要对TextCNN进行改进与优化。1.3注意力机制注意力机制的原理是通过调整权重参数,可以使模型重点关注关键信息和主要特征,同时自动忽略一些噪声或者非关键信息13。已有不少实验结果表明使用注意力机制的模型的性能优于未使用注意力机制的模型,在合适的场景下应用确实可以提升模型的表现14-19。自注意力机制20是一种特殊的注意力机制,它通过关注文本序列中不同位置字符或词之间的关联关系,对权重参数进行调整,以便获得序列的交互表示和全局语义信息,自适应地对文本中的关键信息进行获取,而多头自注意力机制则是使自注意机制在不同子空间内并行运行以此来从多角度多层面捕获文本信息,使捕获的信息更为全面丰富21。2ALBERT-CCMHSAG敏感言论分类识别模型敏感言论识别模型ALBERT-CCMHSAG的结构如图1所示,该模型由三个模块组成:双流信息编码模块、CCMHSA(convolution&cross-layer

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开