温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
双线
融合
多模态
细粒度
情感
分析
周倩倩
第 14 卷 第 4 期2023 年 2 月黑龙江科学HEILONGJIANG SCIENCEVol.14Feb.2023基于双线性融合的多模态细粒度情感分析周倩倩(华北水利水电大学,郑州 450000)摘要:为充分挖掘多模态情感分析中不同模态内部消息及其复杂的交互关系,消除噪声干扰,最大化发挥数据融合的优势,提出一种基于双线性融合的多模态细粒度情感分析方法,通过两个独立的特征,提取模块对单个模态特征进行编码,充分挖掘模态内部信息,利用双线性融合方法获取模态间的交互信息,得到融合后的特征向量,通过 Softmax 层进行细粒度的情感分类。与单模态情感分析和一般的多模态情感分析相比,实验取得了很好的结果。关键词:BiLSTM;AlexNet;双线性融合;注意力机制中图分类号:TP391.1文献标志码:A文章编号:1674 8646(2023)04 0026 04Multimodal Fine-grained Sentiment Analysis Based on Bilinear FusionZhou Qianqian(North China University of Water Resources and Electric Power,Zhengzhou 450000,China)Abstract:In order to fully explore the internal messages of different modes and the complex interaction relationshipsbetween them in multimodal sentiment analysis,eliminate noise interference,and maximize the advantages of datafusion,the study proposes a multimodal fine-grained sentiment analysis method based on bilinear fusion.This methodfirst codes a single modal feature through two independent feature extraction modules to fully excavate the modal internalinformation.Then the interaction information between the modes is obtained by the bilinear fusion method to obtain thefeature vector after fusion.Finally,fine-grained emotion classification is performed by the Softmax layer.Compared withsinglemodal sentiment analysis and general multimodal sentiment analysis,the experiment has achieves good results.Key words:BiLSTM;AlexNet;Bilinear fusion;Attention mechanism收稿日期:2022 12 03作者简介:周倩倩(1998 ),女,研究生。0引言人们在社交媒体上的表达方式越来越丰富,比如利用图片、文字和视频等多模态方式来表达情绪和观点,这种多模态的情感分析方式已成为情感分析领域的重要手段。与单一模态数据相比,多模态方式包含了更多的信息,多个模态之间可以互相补充,帮助机器更好地识别情感。社交媒体中的多模态数据之间往往具有联系,挖掘其之间的交互性是研究的重要方向之一。目前,主流的多模态融合策略分为特征层融合和决策层融合。Poria1 等将文本特征、音频特征及面部特征相拼接,生成融合后的特征向量,并将其输入至多核支持的向量机中,完成情感分类。申自强2 通过引入模态贡献计算方法,避免了模态表达不一致问题。林敏鸿3 等将各模态的张量积作为联合特征表示。文献 4 提出了一种用于多模态情感分析的融合 提取网络模型,使用交互式信息融合机制来交互式学习视觉特定的文本表示和文本特定的视觉表示,可以过滤掉冗余信息,抽取两种单一模态中最有用的情感信息。范涛5 等通过词引导的注意力机制和图引导的注意力机制融合,消除信息冗余的不足,并在数据集中获得了不错的效果。Song6 等利用不同的网络构造语音和面部表情情感识别器,输出不同模态的每种情绪置信度值,将其输出结果融合输入至人工神经网络(ANN)或 k 最邻近的算法中,产生最终情感标签。林鸿飞7 等利用逻辑回归方法得到了文本和图像的情感预测概率,再将两个概率进行加权平均,得到了预测结果。蔡国永8 等提出基于卷积神经网络的多模态情感分析,将图像特征与不同层次的语义特征融合,分别得到不同的情感类别,再把两者结果进行决策融合,得到最终的情感62极性结果。这些融合策略依靠特征向量的简单拼接来实现,操作不复杂。但简单的特征融合并没有考虑模态特征的语义差异性,而混合型融合则将前两者的优势在一个整体框架中集成,如文献 9使用混合方式集成多模态信息来解决多媒体事件检测。Yu10 等指出,有效的多模态表示,应该同时考虑不同模态的一致性和差异性。多模态情感分析的重点在于如何将文本和图像等多模态数据通过恰当的方式建模,同时考虑到粗略的情感类别可能无法完全表达人们对某一事件的看法,基于此,提出了一种基于双线性融合的多模态细粒度情感分析模型,对文本和图像之间的关联信息进行提取,对融合后的特征进行更细粒度的划分,从而提升情感的分析性能。1多模态情感分析模型提出的情感分析模型整体框架如图 1 所示,主要包含 3 个模块:特征表示模块、特征提取模块、特征融合模块。对输入的文本进行预处理,使用 Word 2Vec中的 Skip gram 模型将词汇转化为词向量11,并将词向量输入到双向的 LSTN 网络中。为了提取出重要的文本信息,再将得到的文本特征通过自注意力机制,减少信息的冗余,得到最终的文本特征向量。在图像提取模块中,将图像输入基于卷积神经网络的 AlexNet网络中,获得高层次的图像情感特征,再通过空间注意力机制得到图像的特征向量。在图文情感特征融合模块,利用双线性融合的特点,将不同模态的特征进行融合,再进行情感分类。图 1多模态情感分析图Fig.1Multi modal sentiment analysis plot1.1文本情感特征提取输入样本是指抓取到的文本和图像数据,每个样本被定义为 S(ti,vi),其中 ti,vi表示为第 i 个样本文本和图像,设第 i 个文本有 m 个词语构成,使用 Skip gram 模型将词汇转化为 d 维词向量,文本可以表示成Xt(xt1,xt2xtm),对于每一个词嵌入向量,使用 BiLSTM模型进一步编码,与一般的循环神经网络相比,BiLSTM模型增加了门结构,能够对输入的时序信息选择性地保留和丢弃,其中某些对任务有用的信息可以继续向后传递,而对任务无用的信息则被遗忘。同时增加了后向传播层,能够更好地学习文本的上下文信息。前向传播得到的隐层向量与后向传播得到的隐层向量通过拼接方式得到最终的文本特征向量。一般情况下,对整段文本贡献最大的是文本中的部分词语,某些重要的词语蕴含了更多的情感信息,为增加这类关键词的影响力,加入自注意力机制。假定 k 时刻,LSTM 接受词向量 xtj,k作为输入,上一时刻的输出为 hi,k 1,且输出一个新的状态向量 hi,k,计算过程如式(1)所示:ft=(Wf ht 1,xt+bf)it=(Wi ht 1,xt+bi)?Ct=tanh(WC ht 1,xt+bC)Ct=ft*Ct 1+it*?Ctot=(Wo ht 1,xt+bo)?ht=ot*tanh(Ct)ht=?ht?ht(1)将 BiLSTM 层的输出作为自注意力机制层的输入,在自注意力机制层与生成的权重向量相乘,如式(2),即得文本情感特征向量。W=HHTdka=Softmax(W)A(H)=H(2)1.2图像情感特征提取随着视觉媒体的出现,如图像、视频等,人们在社交网络中积极使用视觉图片表达情绪。关于情感分析的研究也不再仅仅依靠纯文本,如果能够将图像情感72特征有效挖掘,情感分类会更有效。随着视觉神经网络不断改进,图像深层语义在不断发展,且图像已被证明对情感分析任务有帮助。通过 AlexNet 网络结构提取图像视觉特征,输入大小为 224 224 3 像素的图像,经过前向传播进行五层卷积运算,第 1 个、第 2 个和第 5 个卷积层后面还进行了局部响应归一化运算来增加泛化能力,如表达式(3):bix,y=aix,y/(k+amin(N 1,i+n/2)j=max(0,i n/2)(aix,y)2)(3)式中,a 是归一化之前的神经元,b 是归一化之后的神经元,N 是卷积核的个数,其他则为超参数,k=3,n=5,=0.000 1,=0.8。第 5 个卷积层输出的特征被降成一维的特征向量,并经过两层全连接网络,输出层的结果作为图片的视觉情感特征。图片特征提取如图 2 所示。设一张图片为 vi,将其输入 AlexNet 网络中获取图片的视觉特征,即图片可以表示成 Xv(xv1,xv2xvn),其中 n 表示图像特征个数。图 2图像特征提取Fig.2Image feature extraction只有与任务相关的图像区域才是需要关注的,因为并不是所有图像信息对任务的贡献都是相同的,为了减少信息冗余,提高模型性能,对提取的图片特征加入空间注意力机制。空间注意力模型是寻找网络中最重要的部分进行处理,本质是定位目标进行一些变换或获取权重。1.3多模态特征融合在多模态信息融合任务中,以往的工作是简单粗略地直接拼接或加权求和等向量组合操作,不同模态信息之间复杂且互补的交互关系无法充分利用,而双线性融合方法可以得到不同模态特征向量的所有二阶关联,提供了两组特征向量之间的所有交互作用,从而得到具有二阶统计量的全局融合特征表示。但是其融合特征维度过高,难以有效训练,为了解决这一问题,采用张量分解的方法进行降维,具体采用 Tucker12 分解。如图 3 所示,对于一个三阶的张量 X,Tucker 分解表示为表达式(4),即张量 X 被分解为三个因子矩阵ARI P,BRJ Q,CRK R(4)和一个核心张量 GRP Q R图 3Tucker 分解图Fig.3Tucker exploded view在本模型中,假设文本特征和图像特征分别表示为 Xt,Xv,其中 X 为一个三维张量,结合双线性融合模型的优势,对文本与图像两种模态特征之间的丰富交互关系进行建模,得到融合后的特征输出表达式为:y=(X 1Xt)2Xv(5)对高维张量 X 用 Tucker 分解的方式进行降维,则有表达式(6):X=(Xc1Wu)2Wv)3Wo(6)式中,X Rdu dv do,Xc Rtu tv to,Wu Rdu tu,WvRdv tv,WoRdo to(7)则:y=Xc1(uTWu)2(vTWv)3Wo(8)最终获取融合向量,将提取出的融合向量输入到Softmax 层,实现情感分类。2实验与结果分析2.1数据获取实验将“新冠肺炎”“冠状病毒”“疫情”为关键词,爬取2020 年1 月1 日2 月1 日的相关微博,共获得原始微博25 392条,对微博文本进行人工标注,其中情感标签为(0,1,2,3,4),0 代表警觉、1 代表欢喜、2代表悲伤、3 代表狂怒、4 代表惶恐,细分为 5 种情感标签。由于机器采集的数据可能存在噪声,如数据重复、数据无关等因素,会对实验结果有影响,因此预先对数据进行字体转换、删除无用字符、删除重复数据等处理,通过 Jieba 分词和去掉停用词之后,共获得15 85682条数据集