温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
平台
用户信息
过滤
气泡
强度
比较
研究
王益成
情报资料工作 2023年5月第44卷第3期1引言党的十九大报告和首届中国网络文明大会先后指出要加强互联网内容建设,建立网络综合治理体系,营造清朗网络空间。数智时代,高度渗透性与社会化的数字技术成为经济社会深度转型的技术基础,逐步带领人类社会进入平台经济时代与智能算法社会1,信息的传递方式与人们利用信息的形式均发生了革命性的变化。信息与数据成为新型基础性生产要素是数智时代的典型特征,在海量增长的信息与数据面前,实现用跨平台用户信息过滤气泡强度比较研究王益成1,2张梅1李会1(1安徽财经大学管理科学与工程学院蚌埠233030;2中国科学技术信息研究所北京100038)摘要:目的/意义对数智时代下跨平台用户信息过滤气泡强度进行比较研究,探讨同类内容智能分发平台的差异性和互补性,有助于平台和用户采取有效措施破除过滤气泡,提升信息多样性。方法/过程结合LDA主题模型和信息熵理论,以30746条用户文本评论为样本,测度今日头条和腾讯新闻平台用户信息过滤气泡强度,比较分析跨平台之间的异同之处。结果/结论研究发现两大平台不会导致用户陷入过滤气泡,而是提高了用户信息多样性,且今日头条的提升幅度大于腾讯新闻。此外,两大平台的信息存在互补性,用户复合使用有助于提升信息多样性。关键词:过滤气泡跨平台比较推荐算法LDA模型信息熵Comparative Study on Cross-platform Users Information Filter Bubble StrengthWang Yicheng1,2Zhang Mei1Li Hui1(1School of Management Science and Engineering at Anhui University of Finance and Economics,Bengbu,233030;2China Institute of Science and Technology Information,Beijing,100038)Abstract:Purpose/significance A comparative study on the strength of cross-platform user information filter bubbles in the era of digital intelligence,to explore the differences and complementarities of similar content intelligent distribution platforms,will help platforms and users to take effective measures to break the filter bubbles and improve information diversity.Method/process Combined with LDA topic model and information entropy theory,taking 30746user text comments as a sample,measuring the filter bubble strength of user information on Toutiao and Tencent News,and comparing and analyzing the similarities and differences between cross-platforms.Result/conclusion The studyfound that the two platforms did not cause users to fall into filter bubbles,but increased the diversity of user information,and the improvement of Toutiao was greater than that of Tencent News.In addition,the information of the two platforms is complementary,and the combined use of two platforms helps to improve the diversity of user information.Keywords:filterbubblescross-platformcomparisonrecommendationalgorithmLDAmodeinformationentropyDOI:10.12154/j.qbzlgz.2023.03.010信息技术88情报资料工作 2023年5月第44卷第3期户与信息高效匹配的技术应运而生,即算法推荐技术。然而算法推荐技术的出现在简化人与信息关系的同时也加深了一系列社会问题2,如“过滤气泡”3(filterbubbles)、“信息茧房”4(information cocoons)、“回音室效应”4(echo chambers)等。2011年,Pariser3首次提出“过滤气泡”这一概念,他将过滤气泡定义为这样一种信息世界:在个性化定制下,每个人所处的信息世界都是独有的,并且该信息世界中信息多样性很低,缺乏异质信息。个性化推荐算法促使网络世界中形成过滤气泡,用户受困于气泡之中,接触的信息趋于同质化,产生意识形态极化等一系列消极影响,是互联网生态治理中亟须应对的问题之一。国内外学者针对过滤气泡问题展开了相关研究,主要有以下3个角度:(1)从过滤气泡的存在性角度,由于研究角度和判断标准的不同,学者们得出了迥异的结论。其中面向用户的研究多认为过滤气泡被夸大甚至不存在5-6,因用户所处整体信息空间的多样性较高。而面向平台的研究中,学者们亦有不同研究结论,部分学者以新闻网站为背景,根据不同用户接收到新闻的差异性判断过滤气泡被夸大7-11,然又有学者以社交媒体为背景,以不同用户所接触信息的差异性为判断依据,认为过滤气泡真实存在12-13。同样以搜索引擎为背景的研究中,学者们以不同用户搜索结果的差异性为判断依据,却得出了截然相反的结论14-15。可见关于过滤气泡“存在与否”尚未有定论。(2)从过滤气泡的影响角度,多数研究认为人们出于未意识到过滤气泡的存在或不知如何与之对抗,常对过滤气泡采取被动接受的态度16-17。在此过程中,同质化的群体声音逐渐淹没个体意见,个体理性力量趋弱18,意识形态极化加剧,有碍社会团结19。也有少数研究关注过滤气泡带来的积极影响,主要在于过滤气泡有助于人们应对信息过载,降低了信息搜寻成本。过滤气泡的不利影响毋庸置疑,如何应对过滤气泡成为相关研究的落脚点。(3)从过滤气泡的应对策略来看,以2015年为时间节点,此前主要围绕信息过滤可视化来削弱过滤气泡不利影响20-21,此后至今则主要围绕个性化推荐算法优化展开研究,以期破除过滤气泡22-23。但其多从技术角度思考问题,优化路径较为单一,未充分考虑信息获取活动中用户个体的主体地位。上述文献回顾表明,过滤气泡的强度测度并非目前国内外学者主要关注的研究领域,相关研究较少。王茜24认为,若推送给用户的新闻中,某类型的新闻数量占比超过总量的50%,则存在信息窄化现象。相似地,陈华珊等25的研究中提出了新闻消费偏好指数这一测量指标,作者认为用户在某类主题的新闻中回复概率越高,则该用户在这类主题上的茧房效应就越强。然而,仅用推送或用户所消费的新闻类别来测度信息窄化和茧房效应,没有考虑到新闻所包含的信息量,略显粗泛。Zhang等26的研究基于信息熵的方法来测量个人消费新闻的多样性,Chaney等27根据相似用户所消费新闻集之间的杰卡德系数衡量用户行为的同质化程度。相比之下,采用信息熵、杰卡德系数等方式能够更加准确地测度过滤气泡强度,但是均未考虑到新闻集的特征在测度同质性时的重要性。综上,学者们针对过滤气泡展开了丰富的研究,然而过滤气泡“存在与否”、应对策略以及强度测度方面的研究有待进一步补充,在过滤气泡强度的跨平台比较研究方面成果更是少见。本文借助LDA主题模型和信息熵理论对不同平台个性化推荐算法造成过滤气泡的强度进行测度并比较差异,对比分析跨平台消费同类信息会否强化或消解过滤气泡不利影响,同时探析过滤气泡不利影响随推荐算法使用时间的变化规律及可能原因。在理论层面上拓展数智时代下用户信息过滤气泡研究;在实践层面上为平台优化算法提供参考,为信息用户提供针对信息行为的引导,阻断过滤气泡的形成,进一步提高用户信息多样性。2相关理论与方法2.1LDA主题模型LDA模型28是一种基于概率统计方法的文档主题生成模型,其实质是三层贝叶斯概率模型,包括文档、主题和词语三层结构,在用户行为特征分析、文本内容热点挖掘及领域主题演化等方面应用较为广泛29。模型假设每篇文档是主题的概率分布,每个主题又是词语的概率分布,其概率图模型如下页图1所示。训练文档集中包含M个文档,Nm为第m篇文档中的词语总数,K为主题数,Wm,n为文档m中的第n个词语,Zm,n为分配给Wm,n的隐含主题。文档m的主题概率分布m和主题k的词概率分布k是LDA模型的两个参数,均服从Dirichlet分布,先验参数分别为和,一般信息技术89情报资料工作 2023年5月第44卷第3期参数取值为50/K,取值为0.0130。从文档到主题、主题到词语均服从多项式分布,m是第m篇文档的多项式分布参数,用于生成第m篇文档的主题随机变量;k是第k个主题的多项式分布参数,用于生成第k个主题的词语随机变量。LDA模型中,需要预先设定主题数,本文通过主题困惑度(Perplexity)和主题一致性(Topic Coherence)评价指标综合确定文档的理想主题数。主题困惑度常用来度量概率模型的预测能力,但困惑度值无法衡量人类可解释性,主题一致性可用来度量模型主题的可解释性和正确性31,其计算如公式()和公式()所示:Perplexity(D)=exp|-m=1Mlogp(Wm)m=1MNm()式中,D表示文档集中全部词的集合,P(Wm)表示文档集中每个词出现的概率。一般来说,主题困惑度会随潜在主题数的增加而降低,某主题数下困惑度越低,表示模型预测能力越强32。Coherence(T)=(Wi,Wj)TlogD(Wi,Wj)+D(Wj)()式中,T为某一主题,Wi和Wj为该主题下的词,D(Wi,Wj)表示同时出现词Wi和Wj的文档数,D(Wj)表示出现词Wj的文档数,为平滑系数,一般取值为10-12,避免分子为0的同时防止对计分结果造成过多影响33。主题一致性得分越高,表明模型生成的主题质量越高。2.2信息熵理论1948年信息论的创始人申农34首次提出信息熵(information entropy)的概念,提供了信息量化的科学方法。在申农信息论中,信息被定义为减少随机不确定性的东西;信息熵用来表征不确定性、无序性和混沌性;信息量则表示确定性和有序性。信源获得的信息量与信源失去的信息熵在数值上相等,在开放系统中,信息可视为负熵35。信源的信息熵公式如公式()所示:H=-i=1nP(Xi)logP(Xi)()式中,H表示信源的信息熵,Xi表示信源包含的消息符号或信息基元可能出现的随机事件,P(Xi)表示事件Xi出现的概率,可以不是等概率。由于P(Xi)0,1,则信息熵为正值,其单位由式()中的对数底数确定,当信源包括2种随机事件时,取值2,信息熵单位为比特(bit),取值10时信息熵单位为迪特(dit)。3研究方法3.1数据来源与预处理中国互联网络信息中心(CNNIC)发布的第51次中国互联网络发展状况统计报告 显示,截至2022年12月,我国网民规模达10.67亿,其中网络新闻用户规模达7.83亿,占网民整体的73.4%36。参照艾媒咨询于2018年3月发布的 20172018中国手机新闻客户端市场研究报告,