理论算法2022.24470引言随着互联网的发展,诸如推特(Twitter)、新浪微博(SinaWeibo)这样的新社交媒体也随之发展起来。作为全球最具影响力应用程序之一的Twitter在其2022年第一季度的收益报告中表示,其日活跃用户数达到2.29亿,这一数字在上一季度是2.17亿。Twitter这样的微博平台作为互联网时代人们进行沟通的重要工具,为用户快速交流提供便利,因此受到越来越多人们的关注。但是Twitter的这些特点也给“网络水军”提供了活动场所。水军会通过虚假意见的广泛传播引导舆论,人为控制事件走向,从而达到自己的目的;同时大量水军的存在也会导致微博内容的真实性降低,质量下降,严重影响普通用户的使用。由于水军的存在给Twitter等微博平台带来很多不稳定的风险。因此,如何在Twitter中准确识别水军,还给网络世界一个安全稳定的环境,成为微博热点研究中一个亟待解决的问题。随着水军反检测能力越来越强,之前从传播学角度定性判别水军的方法难以达到理想效果,易于形成识别漏洞。因此,本文通过不同数据集以及Scikit-Learn机器学习库中分类算法训练分类器,并以此得出具有较好分类效果的特征和机器学习算法。1相关研究目前,随着网络的飞速发展以及自媒体时代的到来,微博作为分享交流信息的平台,受到很多喜爱。关于微博的研究方向有很多,水军发现也是近年来微博研究中的一个热门话题。国外学者陆续展开相关研究,Yard[1]等分析研究了Twitter的发展历史,通过链接URL以及账户名称规律性等特征识别垃圾邮件用户。Stringhin[2]等通过创建Twitter用户行为分析模型,从而区分出垃圾用户与普通用户。Amlesh-wara[3]等分析特征后建立Twitter用户识别模型CATS,并证明该模型对于少量数据也有很很好地识别果。Zhang等通过分析Twitter中含有链接URL的推文以及其对应账户的特征来区分水军用户与普通用户,并利用机器学习基于特征选择的微博水军识别研究武晓丹(太原师范学院计算机科学与技术学院,山西晋中,030619)摘要:随着互联网飞速发展,微博等社交媒体也迅速成长起来,与此同时,微博平台上网络水军也越来越多。为了能够识别水军,还网络世界一个清净之地,本文针对Twitter平台,利用3个不同数据集以及Scikit-Learn库中3种分类算法进行实验,实验采用相关性检验方法比较不同特征集差异,得出提高分类效果准确率的有效特征,并通过不同机器学习算法训练数据集,得出最优算法。本实验在Twitter真实数据集下进行,实验结果表明,“推特用户收藏...