温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
情感
分析
科普
视频
出镜
性别
传播
效果
影响
研究
科技传播212022 中国科技传播论坛作者简介:贺一,教授,重庆师范大学新闻传媒学院,研究方向为计算传播和科学传播。韦璇,硕士研究生,重庆师范大学新闻传媒学院,研究方向为计算传播和科学传播。胡自成,重庆师范大学计算智能与未来传播研究所,研究方向为计算传播和科学传播。金鑫,副教授,重庆师范大学新闻传媒学院,研究方向为计算传播和健康传播。1 引言中国科学技术部于 2019 年发布全国科普统计数据。统计数据表明,2019 年全国共有 73.91 万名女性科普人员,占科普人员总数的 39.5%。虽然女性科普人员数量呈逐年增长趋势,行业分布日益丰富,但人员总数和结构上与男性科普人员还存在着较大的差距。在 STEM(科学、技术、工程和数学)领域,女性仍然占据少数。根据经济合作与发展组织(OECD)的数据,全球女性在参与一级学科“科学、数学和计算机”的平均比例为 39%1。然而,科学传播领域中,人们很难注意到如此明显的性别差异对社会产生的影响,特别是在此类知识传播的传播者中。事实上,在性别差异下,女性在社会中的地位将会影响女性的生存状态。加拿大劳伦森大学 LisaMcDonald 等人2研究发现,性别骚扰导致人们在科普领域中更多地追求性别的包容性,骚扰使得女性工作者觉得她们必须强调她们的合法性,并且相当注重自身服装的选择。而现目前对于传播者性别的研究主要集中在欧洲国家,亚洲国家相对较少。在此现实情况下,本研究基于不同视频中出镜者存在的性别差异,可能会影响用户视频的传播效果,探究不同性别的出镜者对科普视频的传播效果的影响。此外,科普传播也已经进入到科学媒体化阶段,新媒体的出现给科学传播提供了一个高效便捷的平台,探寻新媒体平台上的传播效果可以促进科学传播的社会实践。新兴的媒体平台层出不穷,以 B 站为代表的视频平台成为科普传播的主场地之一。本研究选取 B 站上科普视频频道为研究对象,结合出镜者性别差异,用计算机辅助手段,对视频中的弹幕及其评论进行情感计算和词频统计,分析用户在视频中的关注点以及情感表达。基于情感分析的科普视频出镜者性别对传播效果的影响研究贺 一,韦 璇,胡自成,金 鑫摘 要 科普传播已经进入科学媒体化阶段。其中以 B 站为代表的视频平台载体正逐步成为科普传播的一个重要渠道。本文旨在研究 B 站科普视频中出镜者的性别差异与传播效果之间关系。利用计算机文本挖掘的研究方法,以 2019、2020、2021 这 3 年发布的科普视频频道的精选视频栏为研究对象,筛选出 115 个有出镜者的科普视频,对其视频里的评论文本和弹幕文本进行情感计算以及词频统计。研究结果显示,对比计算得出的视频传播效果数值,B 站科普视频中女性出镜者的视频传播效果相较于男性呈现出更好的态势。进一步研究发现,出镜者性别差异会影响到用户对视频的关注点,出镜者为男性的视频用户更关注视频本身,而出镜者为女性的视频用户更关注出镜者本人。研究表明,出镜者的性别差异在 B 站平台的科普视频传播中是影响传播效果的一个重要因素。关键词 科普传播;性别差异;情感分析;传播效果;计算机文本挖掘中图分类号 G2 文献标识码 A 文章编号 1674-6708(2023)323-0021-06DOI:10.16607/ki.1674-6708.2023.02.00720231(下)科技传播22科普实践情感分析的主要目的是识别用户对事物或人的看法、态度,是一种自然语言处理过程分析的二级领域,自动对文本进行分类并且找寻用户对于某些特殊议题的态度3。也是社会计算方法中一种重要的方法。在本研究中,需要通过 python 爬虫技术抓取网络视频中的弹幕评论文本,再提取其中包含的情感文本,对这些文本中的情感进行分类从而获得网络视频中的情感信息,然后对句子的情感级别进行分析。在以往对于文本情感分析的研究中,已获得一些成就。梁晨4将网络视频的弹幕评论和视频评论分别做了情感分析,通过对比两者的结果用以探究它们对网络视频流行度的影响。洪庆等 人5也通过情感分析的方法对用户发送的弹幕进行情感计算,将弹幕词汇情感分为了乐、好、怒、哀、惧、恶、惊这七类情感。郑飏飏等人6借助网络弹幕数据句子级别的情感分析方法,建立了基于情感词典的分析模型,最终获取用户发送弹幕数据中的情感分布情况。邱全磊7基于表情和语气,构建了一种可用于弹幕情感分析的情感词典。该词典由基础情感词典、弹幕领域词典、弹幕语气词典、程度词典、否定词典、网络词典构成。在以往的经验和研究成果上,本文也将继续扩展情感分析的研究 途径。随着科普视频爆发式的增长,学界关于科普视频的研究也成井喷之势。视频的传播效果是各大视频网站衡量绩效的重要指标8。对于视频传播的研究发现表明:视频的传播效果会受到多种因素的影响,而探究影响视频传播效果的因素将对提高视频的传播效果具有很高的参考价值。曾润喜等9指出视频的主题类型、标题内容、视频类型、字幕使用、屏幕形式会影响短视频的传播效果。宁海林等10通过点赞量、评论量、下载量和转发量这 4 个指标的综合指数来判定政务短视频的传播效果。飞瓜数据平台提出了“传播指数”概念,即根据视频内容的爆款传播力(55%)、粉丝传播力(25%)、音乐传播力(10%)、篇均传播力(10%)这 4 个维度来系统分析视频的传播效果。通过对文献的整理和回顾,我们发现国内外学者对性别差异的研究一般都是关于不同性别的人在工作中所受到的待遇差异,而将关注点放在传播者身上的研究较少。国内虽然出现了很多与情感分析相关联的研究,但将情感分析与性别差异结合的研究较少。因此,本研究使用将视频出镜者的性别差异与用户的情感分析结合的方式,丰富视频传播研究的途径。并借此研究希望从中探索更有利于科普传播的有效措施。2 研究问题本研究以 B 站科普频道中的科普视频为研究对象,结合视频出镜者的性别差异,通过对视频的评论和弹幕进行情感分析,探究不同性别的出镜者对视频传播效果的影响。本文探究的重点主要包括以下内容:RQ1:科普视频出镜者性别的差异是否会影响科普视频的传播效果?RQ2:科普视频出镜者的性别是否会影响用户的情绪?3 研究方法3.1 研究对象选取B 站于 2009 年创建,作为以年轻群体为主的网络社区,在科普视频的制作和传播上具有重大影响。日益成为中国年轻世代高度聚集的文化社区和在线视频平台11。官方数据显示,B 站从 2010 年开始发布视频,截至 2021 年底,其发布科普视频数量约有 950 万,播放量约有 740 亿次。2020 年 6 月 5 日,B 站上线一级分区“知识区”,由原有的科技区整合升级而来,包含科学科普、社科人文、野生技术协会、财经、校园学习、职业职场共 6 个二级分区,同时吸引越来越多的学者、专家入驻,一大批优质 UP 主汇聚于此创作海量知识内容,积攒了一定的粉丝量和具有较强的影响力12。B 站拥有庞大的用户以及大量数据,是本研究理想的研究对象。3.2 数据采集与处理B 站的搜索引擎上,可以将每年的视频按播放量排序,并将这些视频放入专门的精选视频栏目,这样的选项便利了对研究视频对象的选择。因此,本研究将从近 3 年(2019、2020、2021)中去选取样本,并在每一年的精选视频中,提取播放量前100 的视频,共计 300 个视频。在这些视频中,经过人工筛选,选取具有出镜者的视频 115 个。其中,出镜者为男性的视频有 94 个,出镜者为女性的视频有 18 个,男女同框出镜者的视频有 3 个。由于男女同框出镜者的视频数量太少,不对其做研究。使用python网络爬虫技术(WebSpider)又称“网络蜘蛛”或“网络机器人”,它是一种按照一定规则从Internet中获取网页内容的程序。),从筛选科技传播232022 中国科技传播论坛出的视频中爬取了 1 316 714 条评论和 5 092 975 条 弹幕。3.3 数据分析本研究主要采用计算机文本挖掘的方法展开研究。计算机文本挖掘(TextMining),是指通过计算机技术从海量的非结构信息中提取、转化与研究目标相关的结构性信息的过程。涉及机器学习、统计、自然语言处理、可视化技术、数据库技术等多学科技术,包括数据预处理、核心数据挖掘操作、统计分析、可视化等步骤13。计算机文本挖掘是一个新兴的领域,近年在消息分析领域得到了广泛的运用。在本文中,将运用计算机文本挖掘中的“词频统计”以及“情感分析”这两项细分方法对命题进行研究。3.3.1 情感词频统计词频统计是一种词汇分析研究方法。通过对一定长度文本的词频进行统计分析,进而描绘出词汇规律13。使用词频统计可以分析出评论文本和弹幕文本中的情感方向,筛选出具有代表性的情绪,确定视频用户的情感倾向。在本研究中,将从情感词中抽取出现频词最高的高频词,得到具有代表文本情感倾向的高频情感词。3.3.2 文本情感计算基于情感词典的情感分析法利用情感词典,获取得到文档中情感词的情感值,使用加权计算的方式来确定文档的整体情感倾向14。本文着重分析视频的评论文本和弹幕文本,通过分析文本的情感值,确定用户对视频的整体情感倾向,研究视频出镜者性别差异带来的用户情感差异。在本研究中,需要对文本进行预处理,即分割。文本分割是将语义连续的语句、段落划分为词汇集合的过程。词汇是许多自然语言处理系统的重要组成单元。因为词性判断的处理对象是词汇而非句子,所以文本分割可以视为词性标注的预处理过程19。本文使用 python 的 jieba 分词器对科普视频的评论和弹幕进行分词处理。B 站中涌现了很多新兴的词汇,相对于传统的词汇来说,很多词汇具有不规则性,因此在 B 站弹幕和评论的情感分析中通常需要根据现有的 B 站语言环境自定义大量新词汇以及词组15。由于科普视频评论和弹幕文本的特殊性,将一些没有确切含义的停用词,如“哎呀”“别的”等从文本中剔除。本研究的停词表在哈工大中文停用词表的基础上,增加了样本中无实际含义的词汇使其更具有针对性16。创建一个符合 B 站环境的词语库,也便于此项研究的进行。而 jieba 分词器恰好支持自定义用户词典,分词器可以保留用户自定义的词语,适合为中文文本分析中的文本分割工具。样本评论和弹幕中所包含的停用词表的词汇全部剔除后,可得到预处理后的评论和弹幕词语。本研究选择的基础词典是大连理工大学情感词汇本体库,此词典将情感分为“乐”“好”“怒”“哀”“惧”“恶”“惊”等 7 个大类,其情感词的初始情感强度被设置为 1、3、5、7、9 等 5 个等级,较其他词典而言,强度划分得更为细致和明确。情感词的情感极性有中性、褒义、贬义等 3 类,分别对应值 0、1、2。为便于计算机作情感计算,文中将代表贬义的极性值 2 修改为-117。词汇的情感值公式如公式(1)所示:)()()(wpwvws=(1)公式(1)中:s(w)表示词汇的情感值;v(w)表示词汇的情感强度;p(w)表示情感的极性。根据情感计算值公式,将预处理后的评论和弹幕的词汇进行计算,可以算出词汇的情感值。本研究将科普视频中所爬取的评论和弹幕作为文本研究对象对象,通过此公式对文本进行情感计算后可以得出文本的情感值。由于不同性别的出镜者视频的数量不同,为了方便研究不同性别出镜者情绪的情感值,本研究计算出情感平均值,然后再进行数值的比较。情绪的情感均值公式如公式(2)所示:)(/)()(aenete=(2)公式(2)中:a(e)表示某出镜者视频中情绪e 的情感均值;t(e)表示某出镜者视频中情绪 e 情感总值;n(e)表示某出镜者视频中情绪 e 的视频 数量。根据公式(2)分别求出男性出镜者,女性出镜者的出镜者视频评论和弹幕的情感均值。3.3.3 视频传播效果统计分析B 站可以量化的传播效果指标是指播放量、“一键三连”(点赞数、投币数、收藏数)、评论数、弹幕数和分享数等。已有研究标明,B 站视频的传播效果是可以通过公式来计算的。为降低各指标之间数值极差较大可能产生的影响,将加权结果取其自然对数,以平滑数值。其计算公式如公式(3)所示:(3)在公式(3)中,C为信息传播效果,P为播放量,L 为点赞数,M 为投币数,