温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
角裕度
损失
说话
识别
研究
孟飞宇
2022年第46卷第10期17Voice TechnologY语 音 技 术文献引用格式:孟飞宇.基于角裕度损失的说话人识别研究 J.电声技术,2022,46(10):17-19.MENG F Y.Research on speaker recognition based on angular margin loss J.Audio Engineering,2022,46(10):17-19.中图分类号:TN912.3 文献标识码:A DOI:10.16311/j.audioe.2022.10.005基于角裕度损失的说话人识别研究孟飞宇(中国刑事警察学院,辽宁 沈阳 110854)摘要:针对传统身份认证矢量与概率线性判别分析结合的声纹识别模型步骤烦琐、泛化能力较弱等问题,基于自建的普通话唱红歌语音库,设计三个针对文本无关的闭集声纹识别模型,分别为 Res-SD、Res-SA 和 Rep-SA 模型。Res-SD 模型采用传统的交叉熵损失函数完成训练,Rs-SA 和 Rep-SA 模型采用可以在特征表达的角度空间中最大化分类界限的附加角裕度损失函数完成训练。实验结果验证了所提出的三个模型针对文本无关的闭集识别任务是有效的。在参数量和准确性方面,Rep-SA 模型更适合在红歌数据库上学习到具有类别区分性的唱歌者特征。关键词:声纹识别;闭集;Res-SD;Res-SA;Rep-SAResearch on Speaker Recognition Based on Angular Margin LossMENG Feiyu(Criminal Investigation Police University of China,Shenyang 110854,China)Abstract:Aiming at the problems of tedious steps and weak generalization ability of voiceprint recognition model combining traditional identity authentication vector and probability linear discriminant analysis,based on the self built mandarin singing red song voice database,three text independent closed set voiceprint recognition models are designed,namely Res SD,Res SA and Rep SA models.Res SD model uses traditional cross entropy loss function to complete training,and Rs SA and Rep SA model use additional angle margin loss function that can maximize the classification boundary in the angle space of feature expression to complete training.The experimental results verify that the three models proposed in this paper are effective for text independent closed set recognition tasks.In terms of parameter quantity and accuracy,Rep-SA model is more suitable for learning the singer characteristics with category differentiation on the red song database.Keywords:voiceprint recognition;closed set;Res-SD;Res-SA;Rep-SA0 引 言声纹识别又叫作(自动)说话人识别,它是通过计算机或者其他识别技术等手段,从已有的语音信号中提取出可以代表说话人个人特征的信息,从而对说话人身份信息进行识别判断的一种生物特征识别技术。声纹和指纹、虹膜一样,每个人的声纹都是独一无二的。在声纹识别领域发展的这些年里,DEHAK等1提出的身份认证矢量方法是较受认同的一种技术方法。在图像识别和语音识别等领域中,深度神经网络(Deep Neural Networks,DNN)发挥了很大作用,因此,本文将此技术应用到声纹识别领域。通过深度神经网络对声纹进行建模,一般有两种方法。第一种是用深度神经网络取代认证矢量框架中高斯混合模型-通用背景模型来计算充分统计量,另一种是从 DNN 的瓶颈层获得特征,从而得到话音级别表示,VARIANI 等 2就是利用这种方法把从 DNN 最后一个隐藏层中获得特征的平均值来替代认证矢量。但是该方法存在两个方面的不足:提取认证矢量后,后续的步骤比较多;加性噪声会影响该模型的泛化能力 3。据此,本篇文章基于自建的普通话唱红歌语基金项目:中国刑事警察学院研究生创新能力提升项目(2021YCYB46)。作者简介:孟飞宇(1993),男,硕士,研究方向为声像资料检验。2022年第46卷第10期18语 音 技 术oice TechnologyV音库,设计了两个针对文本无关的闭集声纹识别模型,分别为 Res-SD、Res-SA。模型都用短时傅里叶变换(Short Time Fourier Transform,STFT)提取语音信号声学特征,Res-SD 模型采用交叉熵损失函数完成训练,Res-SA 模型采用附加角裕度损失函数完成训练。1 附加角裕度损失函数Res-SD 模型采用传统的 Softmax 损失函数。将分类网络的全连接输出层,Softmax 函数以及交叉熵损失函数 3 个步骤联合定义为 Softmax 损失函数4,表达式为1111elogeTyiyiiTjijW xbNnW xbijLN+=(1)式中:xi是第 yi类的第 i 个样本的嵌入特征,Wj是权重的第 j 列,bj是偏差项,N 是批次大小,n是类别数。为了改进 Softmax 函数的功能特性,令偏差 bj=0,cosiiiTyyiywwx=,j是 wj和 xj之间的夹角,通过 L2 归一化令个体权重|wj|=0,同时把嵌入特征|xi|重新缩放为 s,loss 函数为cos2coscos11,1elogeeyijyiisNssnijjyLN=+(2)Res-SA 模型和 Rep-SA 模型采用附加角裕度损失函数进行训练,特点是在 xi和 wyj之间的 角上添加附加的角裕度 m,最终改进的附加角裕度损失函数5为()(cos()3coscos11,1elogeeyijyiismNssmnijjyLN+|=+(3)2 采用 STFT 获取语音信号的频谱特征用帧长 32 ms、帧移 10 ms 的汉宁窗将语音信号转化为 257 维的 STFT 特征,每个样本随机截取一个 16 ms 的语音段,生成一个 257257 的特征矩阵,再进行归一化操作,从而转化为单通道的特征向量,转移到构建好的卷积神经网络(Convolutional Neural Networks,CNN)中。如此有一点好处,就是可以完整地保留音频的原始信息。3 网络结构HU 等6提出了基于残差结构的卷积神经网络ResNet,缓解了深度卷积神经网络在训练过程中梯度消失和梯度爆炸的问题,并且大大提升了网络的性能。鉴于此,为进一步提高模型准确率,Res-SD 模型和 Res-SA 模型采用 ResNet-34 作为文本无关声纹识别模型的基础网络架构,并引入注意力机制,得到 SE-ResNet34。Res-SD 模型的网络结构由 SE-ResNet34 和 2 层全连接分类器组成;Res-SA 模型的网络结构由 SE-ResNet34 和 ArcNet分类器组成。4 实验与结果分析4.1 实验数据集实验数据采用的是笔者自己创建的普通话唱红歌语音库,来训练和评估所提出的模型。为了避免过多的噪声干扰问题,该数据库音频文件在较为安静的环境下进行录制。语音数据以 48 kHz 的速率采样,比特率为 1 536 kbs-1。普通话唱红歌语音库共包含 20 位说话人(12 女,8 男),每人分别唱红歌,总时长达 3 622.07 s。模型用于文本无关的闭集识别任务,共有音频文件 1 425 个。其中 1 140个音频文件用于训练,285 个音频文件用于测试。4.2 性能指标随着神经网络的不断训练,通过分析准确率和损失值来调整模型,并以此作为指标衡量该阶段的好坏。测试阶段,本文也用准确率作为标准来评价模型。4.3 模型训练方法模型共训练 50 个 epoch,将取得最高测试准确率的 epoch 对应 pt 模型文件保存,每轮每批处理的样本数为 32 个。优化器选择动量为 0.9 的 SGD 优化器,权重衰减设置为 510-4。为避免在训练过程中 Loss函数出现震荡,用指数衰减法控制模型学习率,模型初始学习率设置为 110-3,衰减系数设为 0.1,每隔10 个 epoch 学习率=当前学习率 衰减系数。4.4 模型测试结果用普通话唱红歌语音库的 285 个音频文件测试模型,结果如表 1 所示。可以看出,Res-SA 模型的性能与训练设置的 m 值和 s 值相关,本文对 m和 s 的许多组合进行实验,以找到最优值。4.5 模型训练结果图 1(a)是 Res-SA(m=0.1,s=16)模 型、Res-SD 模型和 Rep-SA(m=0.4,s=64)模型比对的准确率随着 epoch 的变化曲线图。整体上,随着epoch 的增大,准确率曲线呈上升趋势。Rep-SA 模2022年第46卷第10期19Voice TechnologY语 音 技 术型和 Res-SA 模型在训练到 13 个 epoch 的时候趋于稳定,准确率稳定在 1 左右,Res-SD 模型在训练到第 13 个 epoch 时有轻微波动,准确率值波动范围在 0.852 7 1。表 1 红歌测试集准确率模型超参数准确率msRes-SA0.1160.972 50.2160.963 40.3160.95560.4160.945 20.5160.955 60.6160.942 50.1320.955 80.2320.966 20.3320.955 80.4320.953 10.5320.953 10.6320.945 30.1640.962 90.2640.959 50.3640.966 10.4640.966 10.5640.962 90.6640.968 2图 1(b)是 Res-SA(m=0.1,s=16)模 型、Res-SD 模型和 Rep-SA(m=0.4,s=64)对比模型的损失值 loss 随着 epoch 的变化曲线图。整体上,随着 epoch 的增大,loss 曲线呈下降趋势。Rep-SA模型在训练初期下降得很快,在第 11 个 epoch 时,loss趋于平缓,其值稳定在1.573 510-80.352 8,Res-SA模型在训练到第10个epoch时有轻微波动,loss 值波动范围在 0.027 43 0.185 5,Res-SD 模型在训练到第 10 个 epoch 时同样有轻微波动,loss值波动范围在 0.172 3 0.492 5。5 结 语针对文本无关的闭集声纹识别任务,本文基于自建的普通话唱红歌语音库,设计了两个针对文本无关的闭集声纹识别模型,分别为 Res-SA、Res-SD。在红歌数据库的测试集上,本文对 Res-SA 模型的超参数m和s的许多组合进行实验。结果显示,Res-SD 模型的准确率为 0.9