分享
基于自注意力机制的多模态场景分类_常月.pdf
下载文档

ID:2258381

大小:470.68KB

页数:7页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 注意力 机制 多模态 场景 分类
文章编号:()收稿日期:基金项目:国家科技创新 “新一代人工智能”重大项目();国家自然科学基金(,)作者简介:常月(),女,硕士研究生;邵曦,男,博士,教授,通信作者:基于自注意力机制的多模态场景分类常月,侯元波,谭奕舟,李圣辰,邵曦(南京邮电大学 通信与信息工程学院,江苏 南京 ;比利时根特大学 信息技术学院,比利时 根特 ;北京邮电大学 国际学院,北京 ;西交利物浦大学 先进工程学院,江苏 苏州 )摘要:针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过 对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于 数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。关键词:视听场景分类;自注意力机制;多模态融合;辅助学习中图分类号:文献标志码:近年来,随着人工智能和多媒体技术的逐渐发展,人们对场景分类的研究逐渐从单一模态的研究转向多模态领域的研究。现实世界中,人类可以通过听觉、视觉、嗅觉、触觉等多种方式对环境事物进行单一或联合感知。由于受到人类通过多种感官(视觉和听觉)感知世界这一事实的推动,人们对从图像和音频中进行多模态学习的兴趣激增。从早期对视听语音识别的研究到近期对语言和视觉模型的兴趣激增,多模态机器学习俨然成为一个热点研究领域,潜力非凡。场景分类属于声学和视觉领域的范畴。声学场景分类(,)旨在对日常环境和周围发生的各种事件产生的声音进行分类,这对于多媒体内容检索以及音频和视频分类和分割等应用具有重要价值。然而,真实的声场景通常会同时出现多种干扰背景声,这使得对于声学场景进行精准分类仍然存在较大的困难。解决方案通常基于频谱特征,最常见的是 频谱图和卷积神经网络(,)架构。相比之下,视觉场景分类(,)方面涌现出了更多类型的处理方法,例如全局属性描述符、学习空间布局模式、区分区域检测以及最近的混合深度模型。当大规模图像数据集可用时,如 ,其对图像的场景分类性能可以得到显著提高。多年来,研究人员已经探索了各种网络结构,如,最近 和 被证实可以进一步提升视觉场景分类的性能。为了继续提升场景分类性能,研究人员已开始进行声学和视觉特征的联合学习并获得了一定的研究成果。最近的研究表明,注意力机制()在机器翻译、语音识别、机器视觉等领域作为强大体系结构的基础,在各种任务中取代了递归和卷积神经网络 并获得了较好的效果。注意力机制通过不断调节每个编码器权重的大小,有效抑制无用信息,提高对有用信息的关注度,进而提升模型的收益。受此启发,本文所研究的视听场景分类(,)任务使用了自注意力机制()来提高场景分类的准确率。由于单音频信息的分类准确率与单视频的相比要差,所以采用对音频特征本身进行 来计算音频特征之间的相似度,从而提高音频分支对于场景分类的信息关注度。本文方法是将经过 处理后的声学特征与视觉特征进行拼接融合,并再次采用第 卷第期 年月复 旦 学 报(自然科学版)()DOI:10.15943/ki.fdxb-jns.20230208.006 来对双模态信息进行特征抓取。最后,本文验证了注意力模型能够有效捕获关键信息并提升了场景分类准确率。图视听场景分类系统的框图 基于自注意力机制的视听场景分类方法本文所提出的基于自注意力机制的视听场景分类的系统模型如图所示。该系统主要由个部分组成:音频模块、视频模块和视听融合模块。基于音频的模块生成音频嵌入()向量,该音频嵌入向量可以表示来自输入声学特征的音频信息;基于视频的模块从输入图像序列中提取具有空间信息的视频嵌入()向量。最后,视听融合模块对来自音频和视频的双模态信息基于 进行融合。音频特征处理 网络 实际上是 的开源实现框架,并且整个网络是基于大型数据集 进行训练的,架构的功能是用于识别视频的分帧图片数据和时长为的音频片段是否来自同一视频并且在时间上是否重叠,即对音频信息和视频信息分别训练生成音频和视频嵌入向量并预测输入的音频和视频信息是否相关。因此,本文受到 网络在声学特征上表现出的良好性能的启发,使用 网络对音频特征进行提取。在音频特征提取部分,设置采样率为 ,采样窗口的长度设置为,帧移设置为 ,滤波器数量设置为 ,并且将内容类型设置为“环境”,从而获取音频的隐层特征。对于时长为 的音频,最终得到 的音频隐层向量作为音频分支的输入数据。为了使声学特征能够关注更多的全局信息并忽略无关信息,本文将声学特征输入到 层进行相似度计算并获取关键信息。信息抓取之后,为了使声学特征能够关注更多的局部特征信息,本文将其输入到个参数不同的卷积层内进行降采样。由此,我们获得了参数为 的音频嵌入向量。图残差元的结构图 视频特征处理本文对于视频数据采用按帧提取图片的方式进行处理,并将提取的图片作为视频模块的输入数据。首先,将时长为 的 文件进行图片抽取,每秒抽取张图片并对其进行归一化。鉴于 在图像处理领域的优异性能,我们的视频模块使用预训练模型 作为通用的视觉特征提取器。为残差神经网络,即在传统的卷积神经网络中加入残差学习(),避免随着网络模型层数的加深而出现学习退化现象。残差学习的本质思想是在原始的网络结构的输入和输出之间加入直接连接构成基本的残差元(,),本文使用的 结构如图所示。可如下定义:(,),()其中:为残差元的输入;为残差元的输出;(,)为网络的残差映射部分,且和(,)的维数必须相同。本文使用的 的网络结构是由 个卷积层和个全连接层组成。卷积核的大小有种,分别为、,用于图像特征的提取,卷积层的激活函数为非线性 ()第期常月等:基于自注意力机制的多模态场景分类激活函数。为了与音频模块一致,视频模块输出的数据维度同样为 ,意味着我们希望输入的图像序列可以重新被表示成 帧且每帧为 维的嵌入向量。多模态特征融合处理为了研究多模态特征融合在场景分类任务中的表现,首先将音频分支和视频分支的嵌入向量进行拼接融合。随后,将拼接后的双模态特征再次输入到 层进行全局信息抓取,从而更好地匹配场景分类任务。注意力机制是将输入信息 中的构成元素想象成是由一系列的 ,数据对构成,此时给定目标信息 中的某个元素作线性变换得到的查询向量(),通过计算 和各个 的相似性或者相关性,得到每个 对应 的权重系数,然后对 进行加权求和,即得 到了最终的 数值。所以本质上 机制是对 中元素的 值进行加权求和,而 和 用来计算对应 的权重系数。自注意力机制是一种特殊的注意力机制,通过对序列本身进行注意力计算,给不同的元素分配不同的权重信息来获取序列内部的联系。为了关注特征的多个子空间信息,本文使用多头自注意力机制。自注意力机制通过计算查询向量()、键矩阵()、值矩阵()之间的映射关系关注全局相关性信息,由于本文将音频和视频拼接后的嵌入向量作为整体输入到 ,所以此处,每个序列中的单元和该序列中所有单元进行 计算。自注意力机制中采用缩放点积注意力(,)计算权重,计算公式如下:(,)()。()式中:表示转置;表示键的维度。分母中的对权重进行缩放,防止向量维度太高时计算出的点积过大,然后得分经 函数归一化与相乘,以此来关注全局相关性。常用于解决多类回归问题,输出各个类别的概率分布,在深度学习中常被用作分类器。假设统计层输入序列为,在多头自注意力机制中,有,对作线性变换如下:,(),(),()(,),()(,)。()式中:、为线性映射矩阵;表示第个注意力头输出的权重向量;表示对所有头的注意力权重计算结果进行拼接操作得到的权值矩阵。消融实验本文设置了组消融实验,如图所示。消融实验的个模型和本文所提出的模型使用相同的输入特征数据,声学特征均先经过 进行特征信息提取,然后输送至卷积层进一步提取局部特征信息,最后再生成音频嵌入向量;同样,视频分支对视频信息进行图片抽取,然后将图片输送至 进行图片特征提取得到视频嵌入向量。这部分的数据处理方式与本文所提模型相同,因此在图中进行了省略。组消融实验模型与本文所提模型的不同点在于两种模态特征的融合方式有些许差别,图()与本文所提出的模型的区别在于仅将音频和视频的嵌入向量进行简单拼接,而对拼接后的双模态特征不再进行 的数据处理,直接就判别 对于多模态场景分类任务是否有性能提升。图()与图()属于同一类型的模型框架,均是使用其中一个模态的信息辅助另一模态作决策的思想。图()与图()对音频嵌入向量和视频嵌入向量不进行拼接融合处理,而是将二者直接输送至 层进行全局信息关注。前者将注意力机制中的查询向量设置为视频嵌入向量,键矩阵和值矩阵设置为音频嵌入向量,将视频信息作为查询向量与音频信息进行相似度计算得到权重,并使用复 旦 学 报(自然科学版)第 卷图消融实验模型图 函数对这些权重进行归一化处理,最后将权重与相应的音频信息进行加权求和得到最终的注意力值,从而实现使用视觉特征来辅助声学特征做分类的效果。后者则将设置为音频嵌入向量,和设置为视频嵌入向量,即使用音频信息作为查询向量与视频信息进行匹配计算相似度,然后将所得权重与视频信息进行加权求和得到注意力值,此为使用声学特征辅助视觉特征做分类。因此,将这两个模型与图()和本文所提出的模型进行对比,可知多模态信息共同决策分类与单模态信息互相辅助决策分类相比,其对于场景分类的效果有所提升。实验及结果实验数据集本文使用声学场景与声音事件检测和分类竞赛(,)提供的 数据集进行实验。该数据集记录了 年 个欧洲城市:阿姆斯特丹、巴塞罗那、赫尔辛基、里斯本、伦敦、里昂、马德里、米兰、布拉格、巴黎、斯德哥尔摩和维也纳等的音频和视频场景数据。这些数据场景分为 类:机场()、商场()、地铁站()、步行街()、公共广场()、街道(交通量中等)()、有轨电车()、公共汽车()、地铁()、公园()。这 类场景又可以分为室内、室外和交通场所个类别。每条音频和视频数据均为时长为 的片段,且每条数据文件都由场景类别、城市名称和记录位置标识作为文件名进行信息描述,数据集总长大约为。参数设置本文使用 框架构建所有的分类模型,由于本文是对多类别的分类任务进行研究,所以模型中的分类层使用的激活函数为 函数,损失函数使用的是交叉熵函数()。本文使用亚当优化器(),将学习率设置为 ,且衰减权重设置为 。每个模型训练时迭代次数设置为 次,每批数据的大小()为。评估指标本文使用准确率()来评估实验结果,准确率值越高的模型,场景分类精度越高。()式中:、分别为音频或视频的正例样本中被正确预测和错误预测的样本数;、分别为音频或视频的负例样本中被正确预测和错误预测的样本数。第期常月等:基于自注意力机制的多模态场景分类结果分析本文系统将音频和视频特征拼接融合后再进行 处理,主要思想是双模态信息融合并共同作为分类决策。对比系统选为:()基线系统();()简单拼接,即仅对音频和视频特征进行简单拼接,从而使用双模态信息决策分类;()视觉辅声学,即将音频和视频特征输送至 层,并使用视频特征辅助音频特征做分类,主要思想为利用视觉信息补充声学信息并使用补充后的声学信息进行分类;()声学辅视觉,即将音频和视频特征输送至 层,并使用音频特征辅助视频特征做分类,与前者类似,使用声学信息对视觉信息进行补充并选取补充后的视觉信息进行分类。种系统在 数据集上的分类准确率如表所示。表本文系统与对比系统的分类准确率 场景 基线系统简单拼接视觉辅声学声学辅视觉本文系统 综合 由表可知,使用视频信息辅助音频分类和音频信息辅助视频分类的准确率分别为 和 ,二者均是对单模态信息运用了复杂的注意力机制的数据处理方法,而仅将双模态信息进行简单拼接再分类获得的分类准确率为 。这项数据对比说明,双模态信息简单拼接后共同进行场景分类的效果要明显优于单模态信息间互相补充学习后分类的效果。本文系统的分类准确率为 ,场景分类准确率与仅对双

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开