2023,59(13)不少不法分子利用信息传播平台散播反动言论、传播色情信息、销售违禁物品等,这些敏感言论一旦大规模传播极有可能对不明真相的网民产生误导引发群体性事件或者舆论危机,甚至会将一些青少年引入歧途。融合字词特征的互联网敏感言论识别研究闫尚义,王靖亚,朱少武,崔雨萌,陶知众中国人民公安大学信息网络安全学院,北京100045摘要:互联网敏感言论与普通言论之间存在显著差异,为规避过滤规则,其语义较为隐晦,一词多义现象频出,不规范程度较高。为高效识别互联网中的敏感言论并对其进行准确分类,针对敏感言论的特点与现有模型的缺点,对文本卷积神经网络进行了改进,结合ALBERT(aLiteBERT)动态字级编码模型、文本卷积神经网络、多头自注意力机制与门控机制的优势,提出了一种融合字词特征的双通道分类模型ALBERT-CCMHSAG。该模型将文本的字级与词级语义信息、局部关键特征与上下文语义进行了充分提取与融合,以此提升敏感言论的分类效果。ALBERT-CCMHSAG模型在敏感言论数据集上、噪声敏感言论数据集、小样本敏感言论数据集上的表现均为最优,证明了该模型对敏感言论识别与分类能力更强,能应对噪声数据与适应训练数据不足的情况,鲁棒性更强。在酒店评论数据集上,该模型的性能同样优于对比模型,证明了模型在其他语料上也很可能具有优异表现。关键词:敏感言论识别;字特征;词特征;多头自注意力机制;门控机制文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2203-0301ResearchonInternetSensitiveSpeechesRecognitionCombiningFeaturesofCharactersandWordsYANShangyi,WANGJingya,ZHUShaowu,CUIYumeng,TAOZhizhongSchoolofInformationNetworkSecurity,People’sPublicSecurityUniversityofChina,Beijing100045,ChinaAbstract:SensitivespeechesontheInternetarequitedifferentfromordinaryspeeches.Inordertoavoidfilteringrules,theyhaveahighdegreeofirregularity,moreobscuresemantics,andfrequentmultiplemeaningsofwords.InordertoefficientlyidentifysensitivespeechesontheInternetandclassifythemaccurately,accordingtothecharacteristicsofsensitivespeechesandtheshortcomingsofexistingmodels,thetextconvolutionalneuralnetworkisimproved.CombiningtheadvantagesofALBERT(aLiteBERT)dynamiccharacter-levelencodingmodel,textconvolutionalneuralnetwork,multi-headself-attentionmechani...