SOFTWARE软件2023第44卷第1期2023年Vol.44,No.1基金项目:嘉兴南湖学院大学生科研训练计划(SRT)项目“基于Bert模型的垃圾短信识别方法研究”(218517249)作者简介:王靖轩(2002—),男,新疆伊宁人,本科,研究方向:自然语言处理。通讯作者:陆贝妮(1993—),女,浙江嘉兴人,硕士研究生,助教,研究方向:自然语言处理、服务计算。基于Bert模型的垃圾短信识别研究王靖轩陆贝妮杨杰吴思楠(嘉兴南湖学院信息工程学院,浙江嘉兴312000)摘要:针对现有垃圾短信识别方法,在复杂场景中特征表示效率低的问题,提出文本预处理结合Bert模型的垃圾短信识别方法。首先对数据集进行预处理,消除冗余信息对分类器的影响,然后将预处理后的数据按8:1:1比例划为训练集,交叉验证集和测试集三类。将Bert模型引入垃圾短信识别分类场景,利用动态掩码提高了文本特征表征能力。实验结果表明,本文提出的垃圾短信识别方法具有较好的识别效果。关键词:垃圾短信;文本分类;Bert模型中图分类号:TP391.1文献标识码:ADOI:10.3969/j.issn.1003-6970.2023.01.004本文著录格式:王靖轩,陆贝妮,杨杰,等.基于Bert模型的垃圾短信识别研究[J].软件,2023,44(01):016-019ResearchonSpamMessageRecognitionBasedonBertModelWANGJingxuan,LUBeini,YANGJie,WUSinan(JiaxingNanhuUniversitySchoolofInformationEngineering,JiaxingZhejiang312000)【Abstract】:Aimingattheproblemoflowefficiencyinfeaturerepresentationofexistingspammessagerecognitionmethodsincomplexscenes,aspammessagerecognitionmethodcombiningtextpreprocessingandBertmodelisproposed.Firstly,thedatasetispreprocessedtoeliminatetheinfluenceofredundantinformationontheclassifier,thenthepreprocesseddataweredividedintotrainingset,crossvalidationsetandtestsetinaratioof8:1:1.TheBertmodelisintroducedintospammessagerecognitionscenarios,andthedynamicmaskisusedtoimprovetheabilityoftextfeaturerepresentation.Experimentalresultsshowthattheproposedmethodinthispaperhasagoodrecognitioneffect.【Keywords】:spammessage;textclassification;Bertmodel基金项目论文0引言随着万物互联时代的到来,智能手机已经成为用户日常通讯的重要工具之一。其中,手机短信凭借其运作简易、舒适便捷等诸多优点,已成为用户之间沟通的重要媒介。然而在短信业务迅速发展的同时也带来了一些信息安全方面的问题...