温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
网络
粗细
粒度
视频
情感
识别
年月第 卷第期计算机工程与设计 基于残差网络和粗细粒度的音视频情感识别于明,刘子微,师硕,吕华(河北工业大学 人工智能与数据科学学院,天津 )摘要:针对情感特征表征性不足以及离散型和连续型情感描述间关联缺失的问题,提出一种基于残差网络和粗细粒度的音视频情感识别方法。基于残差网络构建双子网络提取特征,视频子网设计恒定残差网络和细节关注分支,弥补深层特征的细节信息;音频子网利用分段注意力机制提升特征判别力。使用比例决策融合策略得到最终情感分类结果。设计粗细粒度损失函数,优化整个网络的性能。实验结果表明,所提方法有效提升了识别精度,验证了不同情感描述间的关联对情感识别的辅助作用。关键词:音视频模态;情感识别;残差网络;比例决策融合;细节信息;分段注意力机制;粗细粒度损失中图法分类号:;文献标识号:文章编号:():收稿日期:;修订日期:基金项目:国家自然科学青年基金项目();河北省自然科学基金面上基金项目(、);河北省高等学校科学技术研究基金项目();中国科学院自动化研究所模式识别国家重点实验室开放课题基金项目();天津科技发展战略研究计划基金项目()作者简介:于明(),男,河北秦皇岛人,博士,教授,会员,研究方向为图像处理与模式识别、智能感知与优化算法;刘子微(),女,河北邢台人,硕士研究生,研究方向为情感计算;通讯作者:师硕(),女,河北保定人,博士,副教授,会员,研究方向为情感计算、人脸表情识别、行人再识别;吕华(),女,河北沧州人,硕士,讲师,研究方向为智能信息处理。:,(,):,:;引言情感识别根据所依据的数据不同,可分为行为模式识别(面部表情、姿态和语言等)和生理信号识别(心率、呼吸和脑电等)。行为模式可在实际生活中直观获取,更具实用性。心理学研究表明,面部表情和声音传达了人类情感状态的主要信息,因而基于音视频数据的情感识别一直是研究的热门。基于音视频的情感识别一般可分为数据预处理、特征提取、模态融合及分类个阶段。其中,特征提取工作最第 卷第期于明,刘子微,师硕,等:基于残差网络和粗细粒度的音视频情感识别为关键,因为特征质量直接影响模型的识别性能。在一些采用深度卷积网络提取数据特征的方法中,同等对待所有特征,没有突出有效特征对情感识别的影响,导致识别效率低。因此,越来越多的工作引入注意力机制,来区分特征间的有效性差异。然而,这些方法都没有对深层网络造成的细节丢失问题进行探讨,并且也很少关注音频特征在时间维度上的差异。此外,刘菁菁等的多模态情感识别工作给出了离散型情感在基于激活效价的连续空间上的映射关系,但该工作将离散型和连续型情感识别作为多任务进行,并未利用两者间的关联进行研究。受上述文献启发,本文基于残差网络,对视频序列融合细节和整体特征提高其特征的情感表征性,对音频序列在时间维度上突出重要片段特征的作用。利用情感描述模型间的关联定义粗粒度情感类别,进而设计出粗细粒度损失函数,优化模型性能。本文方法本文的音视频情感识别网络整体框架如图所示,整个网络以端到端的形式实现。根据任务的处理流程可以分为个阶段:数据预处理、特征提取、模态融合及分类。首先,从原始的音视频数据中提取人脸图像序列和音频文件,实 现 数 据 预 处 理。然 后,分 别 基 于 残 差 网 络 和 方法设计人脸图像序列和音频序列的深层特征提取模型,完成特征提取。最后,使用比例决策融合策略对两个单模态的分类结果进行融合得到情感概率向量,基于情感概率向量输出最终的情感分类。为了更高效优化模型,设计粗细粒度损失函数,根据情感概率向量对粗粒度惩罚系数进行取值。图音视频情感识别框架 视频子网本文的视频子网基于 残差网络搭建,保留人脸图像序列时空特性的同时,设计恒定残差网络与细节关注分支,分别提取整体和细节特征,并融合以丰富特征的情感信息。视频整体特征提取()简洁残差单元以残差单元为核心的 网络在解决静态图像分类问题上取得绝对优势。原始残差单元主要由二维卷积,批归一化层(,)以及 激活函数组成。为了保留完整的时空信息,本文首先将残差单元中的二维卷积扩展为三维;然后考虑残差单元中的 层操作破坏了原图像的对比度,且消耗的计算资源与卷积层相同,删 除 了 原 始 残 差 单 元 的 层;最 后,使 用 函 数 替 换 函 数 为 激 活 函 数,由 于 函数中存在 因子,对于输入的负数值,取值为,避免了 函数可能导致的梯度恒为的情况。本文将此单元称为简洁残差单元(,),图为 单元与原始残差单元的特征计算过程对比示意图。将输入的三维数据高度宽度时间的维度大小定义为,原始残差单元的卷积操作在空间和时间两个维度做滑窗计算,输出的特征图时间维度被完全压缩。而 单元因为具有时间维度上的卷积操作,能够输出三维特征图,并且因为没有 层等操作改变数据计算机工程与设计 年分布,很好保留了特征数据的差异性。图原始残差单元与 单元特征计算过程对比()恒定残差网络如图中所示,本文使用 、()个 单元以及 模块搭建尺寸恒定的残差网络。网络具体的结构参数见表,、和分别表示特征图的高度、宽度、时间(帧数)以及通道数,可以看出特征图尺寸、通 道不 变,因 此称 为恒定 残 差 网络。网 络 中 和 为卷积核大小不同的 卷积层,单元由两个 卷积层 和 以及 函 数 组 成,两 个 卷 积 层 的 参 数 一 致,其 中 函数的 因子均为 ,对于输入的数据,若则输出为;若则输出 。为了保持特征的整体性计算以及输出尺寸,所有卷积操作均为低通道数且步长均为。表恒定残差网络结构参数模块名称卷积核尺寸输出尺寸 单元 ()整体特征提取对于输入的人脸图像序列,首先使用的大尺寸卷积核对输入图像采样以保留图像的原始信息。然后利用连续的个 单元提取整体特征,并使用的卷积核学习高维通道特征。最后,将 提取到的特征图与 采样的特征图对应元素相加,融合得到尺寸大小为的整体特征。不同于常见的全局特征,恒定残差网络的三维性完整保留了人脸图像序列的时空特性,从数据输入到输出特征图,所有中间特征图保持通道和尺寸不变,以实现与细节特征的特征点对应。此外,该网络中没有批量归一化、池化等操作,完整提取特征数据的原始分布。细节特征提取深层卷积神经网络能够提取到图像的高级语义信息,但是由于分辨率的降低,会丢失图像的细节信息。相反,浅层特征包含丰富的细节信息。本文提出细节关注分支融合深层卷积网络的深层特征与浅层特征,提取蕴含细节信息的细节特征。本文以 为基础网络,设计细节关注分支,具体结构如图中所示,保留 网络的个 模块,每个 模块得到的特征图通过上采样操作,尺寸被还原到与上一个 模块特征图相同的尺寸,并通过与上一个 模块的特征级联,结合深层特征与浅层特征。将个 模块由浅到深记为、和,细节信息弥补过程如式()式()所示 ()()()()()()其中,(,)表示细节关注分支中间层提取的特征图,为卷积层 提取的特征图,(,)为(,)这个 模块提取的特征图,为最大池化层 输出的特征图;(,)表示与尺寸相同的中间特征图;为缩放因子为的三线性插值操作,对特征图的时间、长度和宽度个维度进行上采样;为特征级联操作。为输出的细节特征,尺寸与输入数据保持一致。整体特征与细节特征融合首先,本文引入注意力机制的思想,利用细节特征增强整体特征的关键点,得到细节增强的整体特征。细节增强如图所示,细节特征通过 函数的映射转化为权重矩阵,权重矩阵与整体特征的对应特征点相乘,得到通过细节增强后的整体特征。图细节增强然后,为了保证特征的完备性,融合增强后的整体特第 卷第期于明,刘子微,师硕,等:基于残差网络和粗细粒度的音视频情感识别征 与细节特征作为最终的视频模态特征。融合过程如式()、式()所示 (),()()()()其中,为维度转化操作,将、的高度宽度平铺为一维数据;为级联操作;为特征数据归一化;为三维的平均池化操作。音频子网音频子网将音频数据的梅尔频率倒谱系数(,)作为输入,最早由 和 提出,能够准确辨识音频信号中的关键成分,时至今日仍然是应用最广泛的音频声学参数。音频数据中存在静默、噪声等与任务无关的数据,为了降低冗余因素的干扰,提高特征的判别力,本文在音频特征提取阶段设计分段注意力机制,自动学习片段特征的权重。整个音频子网结构如图所示。图音频子网结构首先,为了实现与视频数据的呼应,采用分段机制将 向量均分为段,并利用 网络提取每一片段的特征,得到个片段特征,记为,。然后,引入分段注意力机制为每个片段特征分配关注权重,实现时间维度上有效特征的增强以及无效特征的削弱。分段注意力机制由一维卷积、全连接层和激活函数实现。一维的卷积层 将片段特征转化为单通道,一维的 层归一化单通道特征向量,并使用 函数作为激活函数;随后,经过全连接层的参数矩阵,学习每一个片段特征的贡献度,并由 函数将其映射为到之间的权重值;将个片段的权重与对应的特征片段相乘,得到片段加权的音频片段特征。第个特征片段的权重的计算过程如式()式()所示 ()()()()()()其中,为转置操作;为一维卷积的可学习参数矩阵;为全连接层的可学习参数矩阵,使用 函数将权值映射到,区间。每个特征片段与对应的注意力权重相乘,累加得到片段加权特征,如式()所示()音视频模态融合常见的多模态融合方法主要有特征融合和决策融合两种,前者融合各个模态的特征,再对融合特征进行情感判断;后者则融合各个模态对情感状态的判断,输出最终决策。决策融合与特征融合相比,不用考虑模态间的语义差异,更为简单有效。所以本文采用基于比例准则的决策融合策略,融合音频和视频模态。为了得到音频和视频的情感状态判断,将音频特征和视频特征分别输入到全连接层,并利用 函数调整为概率值,完成特征到情感概率向量的映射。音频和视频的情感概率向量分别为和,依据比例准则融合两个模态的情感概率向量,输出在各个离散情感上的概率。比例准则公式如式()所示 ()其中,为音视频模态情感概率向量,、为两个模态的比例参数,。粗细粒度损失函数依据离散型与连续型情感描述模型作为两种独立的情感识别任务,会忽视两种情感描述之间的关联。本文通过两种情感描述模型间的关联定义粗粒度情感类别划分,设计粗细粒度损失函数实现对离散型情感识别任务的辅助。粗粒度情感类别划分连续型的情感描述依赖于多维情感空间,从二维情感空间发展为多维情感空间,维度的增加意味着情感属性的细分。将离散型的情感描述视为一维的连续型情感描述,坐标从左到右同时表示着“消极”到“积极”的情感属性和“温和”到“强烈”的情感程度。将离散型情感的“消极积极”属性与“温和强烈”程度分离开,就变成了二维的“激活效价”情感空间。因此,离散型情感类别与连续型情感类别存在绝对的映射关系。两种情感描述之间存在映射关系,意味着每一种离散情感在激活度效价二维情感空间中,都可以找到唯一的坐标点。效价的正负标识着情感的“消极积极”属性,激活度则量化情感的程度大小。基于离散型情感类别在激活效价上的映射关系,对离散情感类别进行粗粒度划分,划分过程如图所示,根据类别所处的象限不同,可得出粗粒度情感类别,。粗细粒度损失设计将离散的情感类别粗粒度划分后,实现了对情感类别的定性分析,细粒度类别则是对情感类别的定量划分。理论上,对于事件的定性错误,会导致错误的连锁反应。因此,应放大粗粒度情感类别判断错误所导致的损失。离散型 情 感 分 类 大 多 采 用 交 叉 熵 损 失 函 数()训练模型,该损失函数根据概率向量计算机工程与设计 年图离散型情感类别在激活效价上的映射及粗粒度划分计算预测值和真实值的相对熵,预测值及真实值以离散情感类别为计量单位,可将其看作包含单个情感类别的细粒度分类损失的计算。记,为概率向量,其中 为数据样本属于真实类别的预测概率,交叉熵损失函数定义如式()所示 ()()其中,为数据样本量,为情感类别数量,为指示函数,当数据样本的预测类别与真实类别相同时 为,否则为。本文在交叉熵损失基础上增加粗粒度惩罚系数,同时保持细粒度分类损失,设计出粗细粒度损失函数(),如式()所示()()()其中,()为粗粒度惩罚系数,依据个象限划分出的个粗粒度情感类别,存在