分享
强调信息传播和特征分布的说...:EIPFD-ResNet_张霞.pdf
下载文档

ID:2324893

大小:1.40MB

页数:8页

格式:PDF

时间:2023-05-07

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
强调 信息 传播 特征 分布 EIPFD ResNet_
小 型 微 型 计 算 机 系 统 :年 月 第 期 收稿日期:收修改稿日期:基金项目:国家重点研发计划项目(,)资助;国家自然科学基金重点项目()资助;山西省重点研发计划项目()资助;山西省高等学校科技创新项目()资助;山西省青年科学基金项目()资助 作者简介:张 霞,女,年生,博士,副教授,会员,研究方向为机器学习和图像处理;刘乾,男,年生,硕士研究生,研究方向为声纹识别和深度学习;郭 倩,女,年生,博士,会员,研究方向为逻辑学习、抽象推理及它们在多图检索上的应用;梁新彦,男,年生,博士,讲师,会员,研究方向为多视图机器学习和粒计算;钱宇华,男,年生,博士,教授,博士生导师,会员,研究方向为人工智能、大数据、机器学习和数据挖掘;畅 江,女,年生,博士,讲师,研究方向为语音信号处理、脑电信号分析、声纹识别和情感识别强调信息传播和特征分布的说话人验证模型:张 霞,刘 乾,郭 倩,梁新彦,钱宇华,畅 江,(山西大学 大数据科学与产业研究院,太原)(山西省机器视觉与数据挖掘工程研究中心,太原)(山西大学 计算机与信息技术学院,太原):摘 要:说话人验证是一种自然、有效的生物特征身份认证方法,其性能很大程度上取决于所提取说话人特征的质量 残差网络()具有优越的推理能力,可以提取高质量的说话人特征,因此广泛地应用于说话人验证任务中,然而目前残差网络仍存在音频数据信息利用不充分,提取的特征不利于分类说话人等问题,这些问题大大限制了残差网络的表征能力 本文聚焦于残差网络的模型结构,详细分析了残差块分布比例、激活层、跳跃连接这些结构因素对特征信息提取的影响,以及模型输出特征分布对说话人分类结果的影响,并据此对原始残差块、特征下采样过程以及模型输出头重新设计并构建了一个新的说话人验证模型:该模型采用更少激活层的残差块和单独设计的下采样层共同作用来减少音频信号的损失和噪声信息的引入,采用归一化处理后的模型输出头帮助分类损失提供更清晰的分类决策面,并在 个公开数据集(、)上评估了所提模型的有效性 实验结果证明,本文提出的模型在仅有 参数量的情况下,相较于传统 模型,在 个数据集上的等错误率()分别降低了 、,且与强说话人验证模型 相比在 和 上 分别降低了 和 关 键 词:说话人验证;声纹识别;说话人嵌入;表征学习;残差网络中图分类号:文献标识码:文 章 编 号:():,(,)(,)(,):,(),:,(,),(),:,:;引 言说话人验证指的是根据待识别语音的声纹特征识别该段语音是否对应于指定说话人,它是一种自然而有效的生物特征身份认证方法,尤其是文本无关说话人验证(,),能够极大的帮助检索目标说话人 目前,其已经被广泛应用在语音认证,、语音分离以及语音合成等领域 一般来说,说话人验证任务中最重要的工作是构造一个说话人特征提取器,该提取器应当尽可能地生成具有区分度的固定维说话人嵌入,近些年来,随着大量可供训练数据的出现,深度神经网络(,)取代传统说话人识别方式成为了文本无关说话人验证任务中最广泛使用的说话人表征提取模型目前,在端到端的深度学习说话人识别中,基于 方法的两种主流模型分别是基于时延神经网络(,)的 结构和基于深度卷积神经网络(,)的 结构 采用一定空洞率的空洞卷积来提取帧级特征,接着使用池化层将所有帧级特征聚合为一个固定维的向量,最后通过全连接层来提取说话人嵌入 由于深度残差网络对于识别深层信息非常有效,等人将其应用在说话人验证任务中,命名为 和 不同,相比于基于 的说话人验证模型,接受三维特征作为输入,并采用二维卷积来提取特征,在不同的说话人验证数据集上均取得了良好的效果 尽管在 挑战赛后,基于 的 模型在说话人验证任务中取得了最优表现,但由于 优越的推理速度和不俗的性能在说话人验证任务中仍占据主导地位由 挑战赛结果不难看出,随着不断对 层数加深或者通道加宽,基于 模型的性能仍可与当前最优说话人验证模型:性能持平 例如:竞赛中 等人使用 作为特征提取模型 然而为了追求良好的性能,一味的增加网络的深度与宽度,会导致网络优化与学习的难度增加,这对于模型之后部署、应用以及进一步改进带来了巨大的负担 为解决上述问题,本文深入分析了 体系架构,通过对网络重新设计,促进信息在网络中的传播,提出了一个新的说话人验证模型,在仅使用 参数量情况下,取得了目前说话人验证任务中的最优结果本文贡献主要包括以下 个方面:)提出了新的残差块结构与特征图下采样方式 本文提出的残差块允许训练初期的负权值信息通过网络以减少信息损失,重新设计的下采样方式保证了下采样过程中卷积核大小与卷积步长相同从而避免了引入无意义的特征图信息 新的残差块结构与特征图下采样方式显著改善了说话人信息在网络传播过程中的损失情况和噪声引入问题,从而提高了说话人信息在网络中的传播效率,使模型在性能提升的同时加速了收敛)对生成的说话人嵌入特征规范化处理 通过改变说话人嵌入空间中的特征分布,使相同个体的特征更紧凑,不同个体之间的特征更分散,从而提升说话人分类任务的性能)为文本无关说话人验证任务提供强大的基线模型 残差网络结构 基于残差网络的说话人验证模型主要由说话人表征提取模块和分类模块两部分组成 说话人表征提取模块包含帧级特征提取和话语级特征聚合两个部分 帧级特征提取部分包含 个阶段,每个阶段包含若干残差块,各阶段中残差块分布比例 数量不同,通常来说,每个基本残差块()包含两个权重层()并使用跳跃连接()允许信息隔层相加来避免深层网络中的退化问题 话语聚合子模块使用特征聚合层将不同长度的帧级说话人特征编码为固定长度的话语级特征,通过模型输出头将固定长度说话人特征送入分类模块,以此训练模型对说话人嵌入的辨别能力,通常将模型输出头后的输出称为说话人嵌入()表 给出了基于 说话人识别模型结构(和 分别代表特征图的时间维度与频率维度,(),代表卷积核大小为,通道数为,卷积步长为 的卷积层;代表批归一化层;,代表该阶段由 个通道为 的步长为 的 叠加在一起,代表全连接层)鉴于 优越的推理速度和不俗的性能,本文以此为基线,展开了不同的改进架构 说话人验证模型 为了促进信息在网络中传播,提升模型提取说话人嵌入能力 在本节中分别从基线模型中残差块比例、残差块结构、特征下采样方式以及最后的模型输出头 个方面对原始残差图 模型整体结构图 网络进行重新设计,分析由此对说话人验证任务的影响 出于计算量与参数量考虑,最后结合实验给出了基于深度残差网络(通道数为原始的一半)的更适合图 原始 与 的区别 于说话人验证任务的模型,其整体结构如图 所示,其中、下采样层和输出头具体结构分别见图 小 型 微 型 计 算 机 系 统 年()、图 和图(),表 中给出了 网络结构图 下采样层结构 图 原始输出头与 的区别 残差块比率 起源于图像领域,其残差块在模型各阶段分布比例主要是根据图像识别任务设计,可能对于说话人验证任务来说不是最优的 受 启发,本节以更大第 阶段残差块分布比例修改原始网络中残差块分布,将每个阶段的残差块数量由 中的(,)调整为(,)、(,)、(,)以及(,)探索残差块分布比例以及由此带来的模型深度与参数量改变对说话人验证任务的影响 强调信息传播的残差块()残差网络使用跳跃连接来解决深层网络产生的退化问题,但在 等人实验中,随着原始残差块的堆叠,模型深度增加,网络仍表现出优化的困难,这表明原始残差块的设计仍存在不足,过多的残差块仍会影响信息在网络中的传播 本文对原始残差块的结构重新设计,为方便描述,本文将原始残差块命名为,修改后的残差块命名为,图()给出了原始残差块的例子:在()中包含两个卷积层(),其卷积核大小均为 、两个批归一化层()和一个激活层(),图中大箭头表示信息传播的最直接路径:主传播路径(在 主传播路径中包含跳跃连接过程),从公式上每个 可以定义为:表 结构与本文提出的 结构对比 层结构特征图输出尺寸结构特征图输出尺寸输入 通道数转换(),(),阶段,(),阶段,(),阶段,(),阶段,特征聚合注意力统计池化 注意力统计池化 输出头(,)损失函数说话人数量说话人数量(,)()()(),()()()()()其中 和 分别是第 个残差块的输入和输出特征,代表激活函数(激活层),代表可学习的残差映射函数,是残差映射中学习到的权重,是残差映射的结果,是跳跃连接中一个可学习的权重矩阵,它在 与尺寸不同时,将二者映射到同等大小,代表第 个残差块中跳跃连接的输出 对应于图(),公式()代表右侧残差映射部分,公式()代表跳跃连接过程,公式()代表两部分信息在主传播路径中融合并向后传输如同在公式()和图()中看到的,负值信号在主传播路径上通过 激活层后结果将归于,但在初期训练时网络中存在很多负权值,这意味着原始的残差块设计会阻碍特征信息的传递,导致说话人相关信息损失 由此本文分别去掉 期 张 霞 等:强调信息传播和特征分布的说话人验证模型:残差块中残差连接后的激活层以及主干网络中通道转换层中的激活层 通道转换层中的修改在表 中体现,去掉激活层的残差块:如图()所示(虚线框代表去掉了主传播路径中的激活层)为防止这样设计的网络在特殊情况下(公式()结果为)主传播路径完全不受约束,给学习带来困难,下文中提到的方式会将信号变得“标准化”,从而稳定学习过程 独立的下采样过程使用跳跃连接来使主传播路径中 的维度与残差映射 的输出:的维度对齐对于模型来说是有害的 在说话人验证任务中,基于残差网络的模型在进行下采样过程 中通常在中采用步长为,卷积核大小为 ,边缘填充为 的卷积操作,以及在主传播路径中使用步长为 卷积核大小为 的跳跃连接,以此保持下采样过程中 的维度与的维度匹配,即将 与的时频维度以及信道维度对齐 不难考虑到在跳跃连接中,由于卷积核大小仅有 但卷积步长却为,代表着在特征维度改变过程中,跳跃连接过程使得失去了 的激活,这将会导致大量的信息损失,同时剩余激活部分在选择过程没有经过约束,因此不能保证其激活后的输出是有意义的 最后跳跃连接的结果会添加到对应残差块的输出中,意味着主干信息流中将会引入噪声和信息损耗,对网络中的信息造成负面影响为解决上述问题,如图 所示,本文将下采样操作从残差块中剥离开,使用单独的下采样层来满足维度变换的需求 在第、和 阶段结束时采用步长为,卷积核大小为 的卷积层来对时频维度和信道维度变换 通过使卷积核大小与步长大小一致来考虑 中所有的信息,使元素间的过度更平滑,减少信息损失 批归一化层用来规范信号,减少模型学习困难,保持模型训练过程的稳定性 此外下采样层的作用还在于防止 中提到的去掉主传播路径上所有激活层后,信息在极端情况下不受任何约束的通过网络 在实验部分展示了单独使用下采样层与 中方法结合在性能上的好处 强调特征分布的模型输出头()如图()所示,许多最先进的说话人验证模型在模型输出头 后 使 用(,)来约束说话人嵌入 如公式()所示:()(),()其中 代表说话人个数,是当前语句嵌入与其对应说话人类中心夹角,是当前语句嵌入与其他说话人类中心夹角,和 是两个超参数,代表尺度,该参数目的是将 值增大 倍,方便 提高差异性,为子空间角度间隔,间隔越大则表明不同说话人之间的分类间隔越大,越利于分类由公式()可知,在特征空间内使用余弦角度构造一系列决策边界,把不同说话人的特征分配到角度间隔为 的不同子空间中,如图()所示 最理想的情况是最小类间角度大于最大类内角度,即除 强制类间存在角度间隔外,希望类内特征分布尽可能紧凑,然而聚合层后的特征在欧式空间内,特征分布较为松散,这可能会给 优化带来困难 受 等人启发,如图()所示,本文在生成说话人嵌入的全连接层前后分别添加 层来平滑嵌入空间的特征分布,减少特征分布的自由区域 对于,使得特征倾向于仿射状分布时,导致靠近仿射中心的特征缺乏清晰的决策面并且难以区分,但 层可以使特征保持紧凑分布的同时,使得特征空间内话语特征更靠近其对图 说话人嵌入特征分布示意图 应的说话人类中心(图 中虚线箭头),从而得到更清晰的分类决策面,帮助 更好的约束特征 同

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开