分享
基于LERT-RCNN的中文弹幕文本情感多分类研究.pdf
下载文档

ID:3079810

大小:1.40MB

页数:9页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 LERT RCNN 中文 弹幕 文本 情感 分类 研究
现代计算机Modern Computer第 29 卷 第 12 期2023 年 6 月 25 日基于LERTRCNN的中文弹幕文本情感多分类研究孔玲玲1,黄旭1,2,曾孟佳1,2*(1.湖州师范学院信息工程学院,湖州 313000;2.湖州学院电子信息学院,湖州 313000)摘要:为提高弹幕文本情感分类准确率,提出基于LERTRCNN的弹幕文本情感多分类模型。首先使用LERT预训练语言模型获取文本动态特征表示,减少弹幕文本中一词多义对情感分类准确率带来的影响;其次使用BiLSTM和CNN提取更深层次语义特征;最后经全连接层后送入softmax函数得到情感分类结果。实验结果表明,基于LERTRCNN的弹幕文本情感分类模型的准确率、精确率、召回率及F1值分别为96.17%、94.54%、92.56%及93.51%,与传统文本情感分析模型及单一预训练语言模型LERT相比有明显提升。关键词:弹幕;情感分类;卷积神经网络;预训练语言模型;双向长短时记忆网络文章编号:10071423(2023)12000109DOI:10.3969/j.issn.10071423.2023.12.001收稿日期:20230216修稿日期:20230412基金项目:湖州市科技计划工业公关项目(GG201829);湖州市2022科技特派员专项(2021KT02)作者简介:孔玲玲(1997),女,浙江湖州人,硕士生,研究方向为自然语言处理文本分类;黄旭(1977),男,博士,副教授,硕士研究生导师,研究方向为生物计算;*通信作者:曾孟佳(1980),女,湖北荆州人,硕士研究生导师,副教授,研究方向为智能计算,Email:0引言随着互联网技术的飞速发展,网络视频的受众越来越广,弹幕由于其互动性高、趣味性强逐渐成为国内外主流视频网站的重要特色之一。弹幕起源于日本的Niconico视频网站1,用户在观看视频时可实时发送评论,多条评论内容可像子弹一样在屏幕上自左向右移动,因而称为弹幕。与传统评论文本不同,由于其实时发送的特点,弹幕中蕴含了用户更强烈的情感倾向与评价观点,分析其中包含的情感对舆情分析2、广告营销3、视频推荐和检索45等领域都具有重要意义。但弹幕的简短、口语化、一词多义以及包含大量网络用语等特点增加了弹幕文本情感分析的难度。因此,弹幕情感分析成为不少国内外学者关注的热点。作为文本情感分析的传统方法,情感词典在弹幕情感分析领域得到了应用。郑飏飏等5利用句子级情感分析方法建立了基于情感词典的弹幕情感分析模型,结合时间序列对弹幕数据进行了可视化。文献68 分别建立了基于表情和语气的情感词典以及对应的情感值计算方法,且文献6 扩大了中性词的范围,实验结果表明该词典方法比此前方法在弹幕情感分析领域的性能更好。文献 910 使用了基于词向量的情感词典构建方法,即利用Word2Vec工具加入词嵌入表示方法,并利用TFIDF值以及词语间相似度来筛选种子词集。但以上皆为二维情感词典,常规二维情感词典不适用于B站视频弹幕领域的语料库,且在情感分析维度上比较单一。文献 1113 分别构建了多维情感词典,李婕11将其应用于电影评论情感分析;金丹丹等12基于自构建的多维情感词典提取视频弹幕中的情感词和情感符号度量弹幕情感值并以可视化的形式呈现分析结果;于磊13基于异质集成学习的思想,提出了一种弹幕情感分析方法,在实验中具有更好的表现。使用基于情感词典的方法进行弹幕文本情感分析操作简单,但弹幕具有口语化、网络化的特点,基于情感词典的方法不仅需耗费大量人力且无法实时更新,研究与开发 1现代计算机2023年在研究中已经使用得越来越少。随着深度学习的不断发展,神经网络方法被引入情感分析领域。周忠宝等3对社交媒体关键意见领袖KOL发布在社交平台的视频进行研究,使用了卷积神经网络模型(convelutionalnetural network,CNN)对含有广告的视频弹幕文本进行情感分析,更加全面具体地评估了KOL的商业价值,对于广告营销具有重要意义。CNN的结构导致其只能关注局部信息而无法关注全局信息,传统循环神经网络(recurrent netural network,RNN)无法解决长距离依赖的问题,长短时记忆网络(long short time model,LSTM)的出现解决了这一困境。文献1415都使用LSTM实现了弹幕文本的分类检测,前者提出基于LSTM的直播弹幕色情检测模型,后者建立了弹幕和评论情感三分类的分类器来探究用户情感对网络视频传播带来的影响。比起LSTM只能关注上文信息,可同时关注上下文信息的双向长短时记忆网络(binary long short time model,BiLSTM)具有更好的表现,邹墨馨等16利用BiLSTM模型完成对弹幕文本情感倾向的分析以及正负面分类,Wang等4则提出基于 BiLSTM模型的改进情感分析模型,对弹幕数据进行四维情感分类。LSTM结构复杂、计算代价较高,同样能实现关注上下文语境信息但结构简单的门控循环神经单元(gated recurrent units,GRU)被引入,夏巧燕17以直播为研究场景,借助GRU和胶囊网络对直播弹幕文本进行高效情感极性判定,并为短文本分析场景加入了注意力机制(attention mechmism,AttM)。AttM 能根据权重分配关注重点信息、忽略无关信息,挖掘出整个弹幕评论中的情感关键词。庄须强等18提出了一种基于 AttM 的LSTM(ATLSTM)情感分析模型,能有效结合视频中前后弹幕评论的情感依赖关系进而提取出基于主题的“高光”视频片段;刘李姣19利用双注意力机制构建了ESMACNN 模型对视频弹幕文本进行情感倾向分析,进一步提升了弹幕文本情感分类的准确率;王力20结合Word2Vec、CNN和 BiLSTM 的优势,构建了BiLSTMCNNAtt组合模型,通过多组对比实验验证了所提模型在电子产品评测视频的弹幕评论中具有良好的情感分析效果。基于深度学习的弹幕情感分析方法在弹幕文本情感分析领域被广泛应用,并且取得了比基于情感词典的方法更好的表现。预训练语言模型能获取文本上下文信息的动态特征表示,其出现为弹幕情感分析领域注入了新的活力与生机,江涛等1、李知谕等2分别在弹幕情感分析研究中引入了BERT预训练语言模型,前者依据大连理工大学情感词汇本体库,对爬取的B站弹幕进行人工数据标注,采用 BERT 与 RNN、CNN充分提取弹幕文本信息和句子语义特征;后者通过ResNet思想连接BERT、BiGRU模 型 与 前 馈 神 经 网 络 构 建BERTRGRU模型,创新性提出“假中性”概念以增强模型的情感判别能力,再使用注意力加权方式处理情感分析模型判别结果,基于此构造了舆情预警系统。陈志刚等21 引入BERTwwm预训练模型,提出BERTwwmBiLSTM模型,在自建的Bilibili和腾讯视频两个弹幕数据集上进行实验,实验表明其在一词多义弹幕文本中有突出表现。曾诚等22、邓杨等23分别将ALBERT预训练语言模型与CNN、RNN结合,前者提出ALBERTCRNN模型,使得句子中同一个词在不同上下文语境中具有不同的词向量表达;后者引入多极正交注意力机制并提出ALBERTDPCRNN模型,提高了模型捕捉弹幕中隐式情感信息的能力。预训练语言模型具有强大的迁移学习能力,结合传统深度学习模型并应用在弹幕情感分析领域能取得比单类别模型更好的效果,但目前中文弹幕文本情感分析还存在缺少数据集的问题,且多为二分类,还需要更多中文弹幕文本情感多分类的相关研究。为了进一步提升弹幕文本情感分析的准确率,本文使用网络爬虫技术爬取了中文弹幕语料库并基于大连理工情感词典制作了七分类数据集;再结合LERT预训练语言模型与BiLSTM及CNN,提出了基于LERTRCNN的弹幕文本情感多分类模型,该模型融合了语言学信息的LERT能有效提取文本的动态词向量,CNN能高效获取局部语义特征,BiLSTM则能充分获取上下文语义信息。2孔玲玲等:基于LERTRCNN的中文弹幕文本情感多分类研究第12期1相关工作1 1.1 1LERTLERT预训练语言模型预训练语言模型随着情感分析技术应用范围的扩展,传统的静态词向量表示方法如Word2Vec24、Glove25等模型的适用性降低。这类词向量可以得到词语间的语义关系,但不能随上下文变化而变化,因此,动态的词向量表示方法BERT26应运而生。BERT在EMLo27和GPT28的研究基础上,采用双向多层Transformer模型作为基础单元,通过Encoder特征抽取器对文本信息进行双向编码,可得到词本身、词与词间、句与句间的信息26,在下游任务中对BERT进行微调可进一步提升任务准确率。随后,BERTwwm 29、ALBERT 30、Roberta31、PERT32等一系列基于BERT的预训练语言模型被相继提出,并在文本情感分析任务中取得了不错的效果,预训练语言模型(PLM)已经成为自然语言处理领域中具有代表性的基础模型。但大多数PLM都是在文本的表面形式上通过语言无关的预训练任务进行训练的,例如MLM(Masked Language Model),为了进一步赋予PLMs更丰富的语言特征,2022年,Cui等33提出包含语言学信息的LERT预训练语言模型。LERT使用语言信息预训练策略,在三种语言特征上与原始MLM预训练任务一起训练,实验结果表明其在十个流行的中文自然语言理解基线任务上有着更优秀的表现。1 1.2 2BiLSTMBiLSTMLSTM34是RNN的一种变体,能在训练过程中通过记忆门和遗忘门不断对信息进行选取和舍弃,非常适用于对时序数据的建模及对长距离依赖关系进行捕捉,因而被广泛应用于文本情感分析领域。使用LSTM时,句子由词使用加权求和或取平均等方式组合而成,只能在一个方向上进行表示而无法编码从后到前的信息,即不能追溯前后文。BiLSTM的出现解决了这一问题,其由前向LSTM与后向LSTM组合而成,故能捕捉双向语义依赖,在自然语言处理任务中都常被用来建模上下文信息。LSTM模型由输入门、当前记忆单元、遗忘门和输出门组成,遗忘门ft控制前一步记忆单元中的信息有多大程度被遗忘掉;输入门it控制当前时刻的输入以多大程度更新到记忆单元中;输出门ot控制当前的输出在多大程度上取决于当前的记忆单元。LSTM单个模块结构如图1所示。xthttanhtanh图 1LSTM单个模块结构遗忘门ft读取ht-1和xt,并输出一个在0到1之间的数值给每个在cell状态Ct-1中的数字,1表示“完全保留”,0表示“完全舍弃”。ft=()wf ht-1,xt+bf(1)其中:表示sigmod函数;wi表示权重;ht-1表示上一cell输出;xt表示当前cell输入;bi表示偏置值。输入门it决定让多少新信息加入当前状态cell中,主要包括两步:sigmoid层决定哪些信息需要更新;tanh层生成备选更新向量Ct;将两部分进行联合,cell状态从Ct-1更新为Ct。it=()wi ht-1,xt+bi(2)Ct=tanh()wc ht-1,xt+bc(3)其中:wi、wc表示权重;tanh表示tanh函数;bi、bc表示偏置值。输出门ot基于cell状态确定输出什么值,首先运行sigmoid层以确定cell状态哪个部分将输出,其次将cell状态进行tanh处理(得到的值在-1到1之间),并将它和sigmoid门的输出相乘并得到最终输出ot。ot=()wo ht-1,xt+bo(4)ot=ot*tanh(Ct)(5)其中:wo、wt表示权重;bo表示偏置值。BiLSTM的结构如图2所示。3现代计算机2023年LSTMLSTMLSTMLSTM.LSTMLSTMLSTMLSTM.图 2BiLSTM结构将前后两个方向的LSTM输出拼接起来即得到BiLSTM的输出。1 1.3 3CNNCNNCNN35主要包括卷积层、池化层和全连接层,卷积层由一组滤波器组成,滤波器为三维结构,其深度由输入数据的深度决定,一个滤波器可以看作由多个卷积核堆叠形成。这些滤波器在输入数据上滑动做卷积运算,从输入数据中提取特征。在训练时,滤波器上的权重使用随机值进行初始化,并根据训练集进行学习,逐步优化。池化,也称汇聚,实际是一个下采样过程,用来缩小高、长方向的尺寸,减小模型规模,提高运算速度,同时提高所提取特征的鲁棒性。简单来说,就是为了提取一定区域的主要特征,并减少参数数量,防止模型过拟合。池化层通常出现在卷积层之后,二者相互交替出现,并且每个卷积层都与一个池化层一一对应。全连接层即传统前馈神经网络。2014年,Kim36将CNN用于句子级分类,只需微调超参数就在包括情感分析和问题分类的4个任务上获得了改进。CNN具体结构如图3所示。词向量卷积卷积核池化全连接图 3CNN模型结构2基于LERTRCNN的弹幕文本情感分析模型LERTRCNN模型主要包括数据预处理层、LERT词嵌入层、RCNN层及分类层,模型流程如图4所示。数据输入全连接分类层分类结果X2softmaxLERT层XnX1Xn-1RCNN层LERT.LSTMLSTMLSTMLSTM.LSTMLSTMLSTMLSTM.BiLSTM模块CNN模块拼接Conv2-768Conv3-768Conv4-768Max PoolingMax PoolingMax Pooling图 4LERTCRNN模型流程2 2.1 1数据预处理层数据预处理层首先,将爬取到的数据进行长度筛选,将长度过大的语句进行删除;其次,采用Jieba分词工具对数据进行分词、去停用词处理;然后,去除弹幕数据中的重复值;最后,根据情感词典对每条弹幕文本进行情感标注。2 2.2 2LERTLERT层层弹幕具有一词多义现象,根据上下文语境的不同而有不同的含义,传统静态词向量表示方法无法满足需求,因此采用融合了多种语言知识的LERT预训练语言模型将弹幕文本数据表示成动态词向量,以充分理解深层语义信息。输入的弹幕文本数据为X=(X1,X2,Xn-1,Xn),其中Xi表示该条弹幕第i个词,得到文本特征表 4孔玲玲等:基于LERTRCNN的中文弹幕文本情感多分类研究第12期示L=(L1,L2,Ln),其中Li表示该条弹幕第i个特征。2 2.3 3RCNNRCNN层层2 2.3 3.1 1BiLSTMBiLSTM模块模块将LERT层输出的文本特征表示L=(L1,L2,Ln)输入到RCNN层中的BiLSTM模块中,经过前向LSTM和后向LSTM训练后得到文本特征向量F1和F2。2 2.3 3.2 2CNNCNN模块模块将BiLSTM模块输出的文本特征向量Fb1和Fb2进行拼接后得到文本特征向量Fb,输入到CNN模块中,利用卷积尺寸分别为 2、3、4的卷积核对该特征进行训练,得到文本特征向量Fc1、Fc2和Fc3,并采用最大池化方法对特征进行池化操作。2 2.4 4全连接及全连接及softmaxsoftmax层层将RCNN层输出的文本特征表示进行全连接得到文本特征向量表示Fc,使用softmax函数对Fc进行归一化操作得到弹幕情感各类别概率分布,最终得出弹幕文本的情感多分类结果。3实验3 3.1 1实验数据集实验数据集3 3.1 1.1 1数据获取数据获取根据 2022年第二季度的财报显示,Bilibili弹幕视频网站(https:/,以下简称B站)月均活跃用户已经超过3亿,日均活跃用户数达8350万。为了获取更多包含情感信息的弹幕文本,本研究选择B站作为研究平台,并采用Python爬虫技术爬取美食区代表性Up主“章余飞不是章鱼飞”319个视频的307145条弹幕,数据更新时间截止至2022年9月20日10:42:47,其账号信息如表1所示。表 1“章余飞不是章鱼飞”账号信息账号名称章余飞不是章鱼飞粉丝数131.1万视频总数332美食视频数319播放量1.3亿获赞数705.8万首先,设置头文件和Cookie文件以将爬虫伪装成浏览器;其次,根据Up主主页信息获取视频av号列表,再根据视频av号列表拼接字符串得到固定格式的URL从而获取各个视频弹幕页面信息;最后,解析返回的xml弹幕数据并对原始数据进行去重清洗,最终以CSV格式存储。3 3.1 1.2 2数据预处理数据预处理(1)长度筛选。将所有文本数据读出来以对长度进行统计,B站弹幕字数长度限制为100,故统计中最大为100,其结果如图5所示。由图5可知,大部分弹幕长度都在20以下,其占比为96.13%,而长度40以内的数据占据了总数据的99.79%,为了减少后续计算量而又尽可能少地损失弹幕文本,本文筛选长度40以内的弹幕文本进行后续处理。经长度筛选处理,得到306489条弹幕数据。020406080100弹幕文本长度分布情况统计折线图弹幕文本长度/字符数弹幕数量/条Danmu Length Count35000300002500020000150001000050000图 5弹幕文本长度统计(2)分词、去停用词。获取的弹幕数据需要进行分词和去停用词处理。由于弹幕语言存在网络词汇较多、口语化及书写不规范等问题,而现有的分词词库不能满足本文的切词需求,因此本文人工建立领域词典来对弹幕文本进行分词处理。本文在Jieba分词库的基础上对弹幕和美食领域相关词语进行收集,通过人工筛选和整理获得577个该领域的常用词,加入到基础分词库中汇总成实验所需词典;整理了“中文停用词库”“哈工大停用词表”“四川大学机器智能实验室停用词库”和“百度停用词表”后形成了本研究的停用词表。经处理,得到弹幕文本数 5现代计算机2023年据293445条。(3)去除重复值。弹幕不仅具有简短、网络化和口语化的特点,大多还具有重复性,因此需要进行去重操作,经去重处理,得到弹幕文本数据180459条。(4)人工标注。按照大连理工大学情感词汇本体库 的 7大类情感维度,即“乐”“好”“怒”“哀”“惧”“恶”“惊”对数据进行人工标注为06的数字,并剔除不具有情感倾向的弹幕文本,处理后的弹幕文本共 41228条,按照“text”+“t”+“label”的格式将其重新存储到一个txt文件中。各类别情感数量分布见表2。表 2弹幕文本数据集7类情感数量分布labelcount乐03766好125223怒2249哀31828惧41341恶58138惊6683(5)数据集划分将得到的数据集按照71.51.5的比例划分为训练集、验证集和测试集,类别数量分布如表3所示。表 3弹幕文本数据集7类情感数量分布labelalltrain_countdev_counttest_count乐037663008370388好1252232020425502469怒22491972230哀318281468179181惧413411048141152恶581386507802829惊668355059743 3.2 2实验环实验环境及参数设置境及参数设置3 3.2 2.1 1实验环境实验环境实验环境如下:操作系统为Windows11,CPU是 Intel(R)Core(TM)i5-10505 CPU3.20GHz,GPU为NVIDIA GeForce GT730,内存为 8GB,使 用Python3.9.11 进 行 算 法 编 程,并 选 择PyTorch1.11.0作为深度学习框架。3 3.2 2.2 2参数设置参数设置实验参数主要包括LERTBase、CNN、BiLSTM以及LERTRCNN整体参数,LERT为哈工大讯飞联合实验室发布的预训练模型LERTBase,参数见表4。表 4模型参数LERTRCNNLERTBase层CNN层BiLSTM层参数Num_epochsBatch_sizeSeq_lenLearing_ratedropout激活函数损失函数优化器Embedding_sizeHidden_sizeNum_layersMulti_head激活函数Kernel_sizeNum_filtersMax_poolHidden_sizeNum_layers大小564205e50.5ReLUCross_entropyAdam1287681212ReLU2,3,4768476813 3.3 3评估指标评估指标本研究采用混淆矩阵对分类结果进行模型评价。TP表示实际为正的样本中被预测为正的样本数量,FP表示实际为负的样本中被预测为正的样本数量,FN表示实际为正的样本中被预测为负的样本数量,TN表示实际为负的样本中被预测为负的样本数量。根据混淆矩阵统计结果,采用准确率(Acc)、精确率(P)、召回率(R)以及精确率与召回率的调和平均值(F1)对模型效果进行评价,其计算公式为Acc=TP+TNTP+FP+TN+FN(6)P=TPTP+FP(7)R=TPTP+FN(8)F1=2*P*RP+R(9)3 3.4 4实验结果及分析实验结果及分析3 3.4 4.1 1对比实验设置对比实验设置本 实 验 选 择Attention、TextCNN、DPCNN、6孔玲玲等:基于LERTRCNN的中文弹幕文本情感多分类研究第12期BiLSTM、TextRCNN、RCNN、RCNN_Att、FastText以及BERT、ALBERT、ERNIE、LERT、LERT_CNN、LERT_BiLSTM、LERT_RCNN_Att作 为 对 比 模型。其中Attention、TextCNN、DPCNN、BiLSTM、TextRCNN、RCNN、RCNN_Att、FastText采用静态词向量表示方法,使用Word2Vec构建词向量,BERT、ALBERT、LERT、LERT_CNN、LERT_BiLSTM、LERT_RCNN_Att则使用动态词向量表示方法,即LERT预训练语言模型构建词向量。3 3.4 4.2 2实验结果分析实验结果分析各模型对比结果如表5所示。表 5模型效果对比词向量Word2VecBERTALBERTLERT模型AttentionTextCNNDPCNNBiLSTMRCNNRCNN_AttFastTextBERTBERT_RCNNALBERTLERTLERT_CNNLERT_BiLSTMLERT_RCNNLERT_RCNN_AttAccuracy/%87.0792.7292.2991.1291.6690.1891.9095.7195.2787.5895.6696.0095.4996.1795.15Precision/%85.9292.1490.1688.2689.3386.6691.6492.5290.8380.0991.8592.4392.7094.5491.60Recall/%75.9984.3183.5783.2083.7974.4381.6190.8992.5372.2592.5792.2690.5592.5689.35F1score/%80.0989.0586.3985.4185.9774.4985.6491.5691.6575.1992.1993.1491.5593.5190.37由表 5可知,在采用静态词向量表示,即Word2Vec词向量表示方法的传统模型中表现最好的是TextCNN模型,其精确率、准确率、召回率和F1值依次为92.72%、92.14%、84.31%及89.05%;在采用动态词向量表示方法,即各种预训练模型中,表现最好的是LERT_RCNN模型,其精确率、准确率、召回率和F1值依次为96.17%、94.54%、92.56%及93.51%。与TextCNN模型相比,LERT_RCNN模型在精确率、准确率、召回率和F1值方面分别提高了3.45、2.40、8.25及4.46个百分点;虽然LERT与BERT相比在精确率和准确率方面分别相差了0.05和0.67个百分点,但在召回率和F1值上分别提高了1.68和0.63个百分点,且LERT_RCNN比BERT_RCNN的各项值分别提高了0.90、3.71、0.03和1.86个百分点;ALBERT作为BERT的轻量级模型,在采用相同参数的情况下性能远不及BERT以及LERT;与LERT相比,LERT_RCNN 在精确率、准确率和F1值方面分别提高了 0.51、2.69 和1.32个百分点,在召回率方面仅相差 0.01个百分点;与LERT_RCNN相比,LERT_RCNN_Att模型在精确率、准确率、召回率和F1值方面分别下降了0.02、2.94、3.21及3.14个百分点。因此,可得出如下结论:与采用Word2Vec词向量表示的传统模型,即Attention、TextCNN、DPCNN、BiLSTM、TextRCNN、RCNN、RCNN_Att、FastText相比,采用预训练语言模型进行词向量表示的模型,尤其是本文提出的LERT_RCNN模型,在精确率、准确率、召回率和F1值方面普遍具有更好的表现;本文提出的LERT_RCNN模型由于同时采用了融合语言学信息的LERT预训练模型,能捕获局部信息的CNN以及捕捉全局信息的BiLSTM,较BERT、BERT_RCNN、AlBERT、LERT_CNN、LERT_BiLSTM等模型在精确率、准确率、召回率和F1值方面均有所提升,较LERT在精确率、准确率和F1值方面有所提升;由于本文所提模型LERT_RCNN已经充分提取出重要信息,在其基础上再加入注意力机制AttM除了增加运算量和运行时间外并不能提升模型效果,因此LERT_RCNN模型比Lert_RCNN_Att模型有更好的表现。LERT_RCNN模型的各类别结果如表 6 所示,可知每类结果的精确度、召回率和F1值均较高。表 6LERT_RCNN模型各类别结果情感类型乐好怒哀惧恶惊Precision/%95.0397.0392.8695.8693.8895.0492.11Recall/%93.5698.0286.6789.5090.7994.8194.59F1score/%94.2997.5289.6692.5792.3194.9393.33 7现代计算机2023年4结语弹幕文本情感分析对公共安全、商品评论、视频检索、高光片段检测、影视评论及广告营销等领域都具有重要意义,因此本文首先使用爬虫技术对弹幕文本进行爬取,其次经过长度筛选、分词及去停用词及人工标注等预处理,最后结合LERT、BiLSTM及CNN构造了基于LERT_RCNN的弹幕文本情感多分类模型,对爬取的弹幕数据进行了情感分析,验证了使用动态词向量构建的模型比使用静态词向量构建的模型具有更好的性能,且由于本模型结合了能充分提取全局信息的BiLSTM及能有效提取局部信息的CNN,相较于单一的LERT模型能取得更好的效果。但本文只采用了基础版本的各类预训练语言模型对特定领域的弹幕文本进行了情感分析,后续将对其他版本的预训练语言模型及其他领域弹幕文本进行研究。参考文献:1 江涛,黄昌昊,孙斌.基于文本挖掘的弹幕情绪分析研究 J.智能计算机与应用,2022,12(8):6064,69.2 李知谕,杨柳,邓春林.基于弹幕与评论情感倾向的食品安全舆情预警研究 J.科技情报研究,2022,4(3):3345.3 周忠宝,朱文静,王皓,等.基于弹幕文本挖掘的社交媒体KOL研究 J.计算机工程与科学,2022,44(3):521529.4 WANG S,CHEN Y,MING H,et al.Improved danmaku emotion analysis and its application based onBiLSTM model J.IEEE Access,2020,8:114123114134.5 郑飏飏,徐健,肖卓.情感分析及可视化方法在网络视频弹幕数据分析中的应用 J.现代图书情报技术,2015,(11):8290.6 CUI Z,QIU Q,YIN C,et al.A barrage sentimentanalysis scheme based on expression and toneJ.IEEE Access,2019,7:180324180335.7 邱全磊,崔宗敏,喻静.基于表情和语气的情感词典用于弹幕情感分析 J.计算机技术与发展,2020,30(8):178182.8 黄立赫,石映昕.面向视频弹幕的网络舆情事件监测研究 J.情报杂志,2021,41(2):146154.9 段炼.面向弹幕文本的情感分析研究 D.重庆:重庆邮电大学,2019.10 单梦.视频弹幕文本的情感分析研究 D.曲阜:曲阜师范大学,2021.11 李婕.流媒体中的用户行为分析与应用研究 D.天津:天津理工大学,2020.12 金丹丹,于干.基于多维情感词典的B站视频弹幕倾向性分析 J.阜阳师范大学学报(自然科学版),2022,39(2):99105.13 于磊.基于情感的弹幕用户社区划分及行为分析D.重庆:重庆邮电大学,2021.14 周钰淇.基于深度学习的直播色情检测研究 D.南京:南京邮电大学,2018.15 张玲利.基于深度学习的弹幕与评论情感分类分析及其应用 D.杭州:杭州电子科技大学,2021.16 邹墨馨,辛雨璇.基于文本挖掘的影视弹幕情感分析研究 J.科技创新与应用,2021,11(24):5153.17 夏巧燕.一种基于NLP的直播情感分析模型 D.北京:北京邮电大学,2020.18 庄须强,刘方爱.基于 ATLSTM 的弹幕评论情感分析 J.数字技术与应用,2018,36(2):210212.19 刘李姣.面向视频弹幕的文本情感分析研究 D.兰州:兰州交通大学,2020.20 王力.基于视频弹幕的特征发现及情感分析研究J.计算机技术与发展,2022,32(1):141146.21 陈志刚,岳倩,赵威.弹幕文本情感分类模型研究:基于中文预训练模型与双向长短期记忆网络 J.湖北工业大学学报,2021,36(6):5661.22 曾诚,温超东,孙瑜敏,等.基于 ALBERTCRNN的弹幕文本情感分析 J.郑州大学学报(理学版),2021,53(3):18.23 邓杨,杨程.基于ALBERTDPCRNN弹幕情感分类模型研究 J.电脑编程技巧与维护,2022,(9):138140,176.24 MIKOLOV T,CHEN K,CORRADO G,et al.Efficient Estimation of Word Representations in VectorSpace EB/OL.arXiv:1301.3781,2013.25 PENNINGTON J,SOCHER R,MANNING C.Glove:global vectors for word representationCProceedings of the 2014 Conference on EmpiricalMethods in Natural Language Processing,Doha,Qatar:ACL,2014,15321543.26 DEVLIN J,CHANG M W,LEE K,et al.BERT:pretraining of deep bidirectional transformers for language understanding C Proceedings of Conferenceof the North American Chapter of the Association forComputational Linguistics:Human Language Technologies,Min Neapolis,USA,2019:41714186,.8孔玲玲等:基于LERTRCNN的中文弹幕文本情感多分类研究第12期27 PETERS M E,NEUMANN M,IYYER M,et al.Deep contextualized word representationsC Proceedings of the Conference of the North AmericanChapter of the Association for Computational Linguistics:Human Language Technologies,New Orleans,2018:22272237.28 RADFORD A,NARASIMHAN K.Improving language understanding by generative pretrainingEB/OL.(20181105)20200701.https:/www.semanticscholar.org/paper/ImprovingLanguageUnderstandingbyGenerativeRadfordNarasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035.29 CUI Y M,CHE W X,LIU T,et al.Pretrainingwith whole word masking for Chinese BERTEB/OL.arXiv:1906.08101,2019.30 LAN Z,CHEN M,GOODMAN S,et al.ALBERT:a lite BERT for selfsupervised learning of languagerepresentations CProceedings of the 8th International Conference on Learning Representations,Addis Ababa,Ethiopia,2019.31 LIU Y,OTT M,GOYAL N,et al.RoBERTa:a robustly optimized BERT pretraining approachEB/OL.arXiv.1907.11692,2019.32 CUI Y,YANG Z,LIU T.PERT:PretrainingBERT with permuted language modelEB/OL.arXiv:2203.06906,2022.33 CUI Y,CHE W,WANG S,et al.LERT:alinguisticallymotivated pretrained language modelEB/OL.arXiv:2211.05344,2022.34 HOCHREITERS,SCHMIDHUBERJ.Longshortterm memory J.Neural Computation,1997,9(8):17351780.35 LECUN Y,BOTTOU L.Gradientbased learningapplied to document recognitionJ.Proceedings ofthe IEEE,1998,86(11):22782324.36 KIM Y.Convolutional neural networks for sentenceclassification EB/OL.arXiv:1408.5882,2014.Multiply classification of Chinese barrage screen based on LERTRCNNKong Lingling1,Huang Xu1,2,Zeng Mengjia1,2*(1.School of Information Engineering,Huzhou University,Huzhou 313000,China;2.School of Electronic Information,Huzhou College,Huzhou 313000,China)Abstract:In order to improve the classification accuracy of barrage screen sentiment,a multiclassification model of barragescreen sentiment based on LERTRCNN is proposed.F

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开