温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
尺度
相关
双向
长短
记忆
网络
模型
说话
识别
曹书鑫
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程基于尺度相关双向长短期记忆网络模型的说话人识别曹书鑫1,冯藤藤1,葛凤培2,梁春燕1(1.山东理工大学 计算机科学与技术学院,山东 淄博 255049;2.北京邮电大学 图书馆,北京 100876)摘要:说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别。通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息。实验结果表明,SCCNN-BiLSTM 网络模型在 LibriSpeech和 AISHELL-1数据集上迭代 50 000次时的等错率为 7.21%和6.55%,相比于 ResCNN基线网络模型提升了 25.3%和 41.0%。关键词:说话人识别;深度学习;尺度相关卷积;感受野;长短期记忆网络开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(4):289-296.英文引用格式:CAO S X,FENG T T,GE F P,et al.Speaker recognition based on scale correlation-bidirectional long short-term memory network model J.Computer Engineering,2023,49(4):289-296.Speaker Recognition Based on Scale Correlation-Bidirectional Long Short-Term Memory Network ModelCAO Shuxin1,FENG Tengteng1,GE Fengpei2,LIANG Chunyan1(1.School of Computer Science and Technology,Shandong University of Technology,Zibo 255049,Shandong,China;2.Library,Beijing University of Posts and Telecommunications,Beijing 100876,China)【Abstract】Speaker recognition identifies speakers based on their uttered speech.However,most of the speech exhibits diversity in the time-frequency domain.Currently,in the speaker recognition field,the deep learning models based on Convolutional Neural Network(CNN)generally uses a single convolution kernel for feature extraction,which fails to extract scale-related and time-frequency domain features.To solve this problem,a Scale Correlation CNN-Bidirectional Long Short-Term Memory(SCCNN-BiLSTM)network model is proposed for speaker recognition.The scale correlation CNN is used to adjust the receptive field size in the feature abstraction of each layer to capture the scale feature information composed of scale correlation blocks.Simultaneously,the BiLSTM network is introduced to retain and learn the multi-scale feature information of speech data,and the context information of time-frequency domain features is extracted to the maximum extent.The experimental results which obtained after 50 000 iterations show that the Equal Error Rate(EER)of the SCCNN-BiLSTM network model is 7.21%and 6.55%on the LibriSpeech and AISHELL-1 datasets,respectively.Compared with the Residual CNN(ResCNN)baseline network model,the EER of the SCCNN-BiLSTM network model increases by 25.3%and 41.0%,respectively.【Key words】speaker recognition;deep learning;scale correlation convolution;receptive field;Long Short-Term Memory(LSTM)networkDOI:10.19678/j.issn.1000-3428.00643880概述 说话人识别是从语音信号中获取说话人个性特征来确定说话人身份的技术,因为人的发声器官存在大小、形态及功能上的差异,加上人发声速度有快基金项目:国家自然科学基金(11704229)。作者简介:曹书鑫(1996),男,硕士研究生,主研方向为说话人识别;冯藤藤,硕士研究生;葛凤培,博士;梁春燕,副教授、博士。收稿日期:2022-04-06 修回日期:2022-05-10 Email:开发研究与工程应用文章编号:1000-3428(2023)04-0289-08 文献标志码:A 中图分类号:TP391.422023年 4月 15日Computer Engineering 计算机工程有慢,用力有大有小,这导致了不同说话人发出的语音听起来不尽相同。语音中的说话人个性特征主要由说话人发声器官的生理差异以及后天形成的行为差异所决定,属于人的固有特征,难以被模仿。因此,这种特征与人脸、指纹一样,可以作为生物识别技术的一种,成为辨别不同人类个体的方式。针对说话人识别的研究,文献 1-3 介绍了 20 世纪 90 年代的 GMM-UBM 和 GMM-SVM 两种传统说话人识别框架,文献 4-6 总结了21世纪以来的JFA、i-vector、PLDA 等传统说话人识别框架。近年来,随着深度学习的发展,神经网络广泛应用于说话人识别领域,在性能上逐渐超越了传统说话人识别方法。目前,基于深度学习的说话人识别网络模型通常由两部分组成:提取帧级特征和将帧级特征映射为段级嵌入。文献 7-9 介绍了用来提取帧级特征所采用的神经网络,包括深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)以及 CNN 与 RNN 结合而成的卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)。DNN可以对输入进行深度信息挖掘与提取,通过梯度的反向传播训练来获得最具有代表性的特征嵌入。CNN具有参数共享与局部感知的性质,可以很好地应用于二维样本的采样,以抽取出区分性强的说话人嵌入。针对语音信号的时序特性,采用RNN进行嵌入生成也将较大程度地保留时序信息,使生成的嵌入特征更完整。近年来,学者们对基于CNN的说话人识别进行了大量研究并取得了一定的研究成果。文献 10 测试基于CNN架构所生成的帧级特征,该特征可为说话人验证和说话人识别任务提供有效信息,经分析显示CNN对于减小频谱可变性和建模语音特征谱相关性是有效的,并基于残差神经网络(ResNet)理论11提出了深度残差网络ResCNN。深度网络相比浅层网络能力更强,但是它们往往很难训练,ResNet可简化非常深的卷积网络的训练,使得深度CNN的训练较为容易。ResCNN通过加入多个残差块(ResBlock)以解决深度网络训练困难的问题,避免网络深度受网络梯度的影响。文献 12提出CNN连续说话人识别算法,该算法提取固定长度且符合语序的语音片段,形成时间线上的有序语谱图,通过 CNN提取特征序列与奖惩函数对特征序列组合进行连续测量。文献 13 利用3D卷积神经网络架构,通过3D卷积对堆叠的特征图进行处理,结合自适应特征学习与3D-CNN直接对说话人进行建模。文献 14将 卷 积 块 中 的 注 意 力 模 块(Convolutional Block Attention Module,CBAM)15引入CNN网络,用f-CBAM和 t-CBAM 对频率和时间注意力进行建模,并适时将两者结合得到 ft-CBAM,可提高说话人识别性能。文献 16 利用深度CNN提取潜在的说话人特征,在CNN训练过程中采用基于凸透镜成像原理的图像增多算法解决小样本训练样本量不足的问题,并在卷积过程中引入快速批量归一化方法,以提高网络收敛速度并缩短训练时间。上述 CNN 网络模型在提取特征时,均在同一卷积层采用相同大小的卷积核。以文献 10 中提出的ResCNN 网络为例,它虽然能很好地解决深度网络训练困难的问题,避免网络深度受网络梯度的影响,但每个卷积层都只对特征用单一核大小进行抽象,限制了卷积核的尺度变化,这就假定了所有的语音数据都遵从于同一分布,忽略了语音在时间与频率维度分布的差异。同一个说话人的语音数据分布是有差异的,由于这些差异的存在,卷积核的选取会比较困难,如果仅依靠增加不同卷积核大小的卷积层来扩大特征提取范围以消除这些差异,会造成计算资源消耗过大,且不同的感受野无法同时抽取信息,只能进行层级连接。同时,语音数据在时间域与频率域有不同的表示方法,都具有分布多样性,因此采用单一的尺度与单一种类的神经网络很难表达语音中丰富的信息。本文提出一种尺度相关 CNN-双向长短期记忆(Scale Correlation CNN-Bidirectional Long Short-Term Memory,SCCNN-BiLSTM)网络模型来识别说话人。SCCNN-BiLSTM网络模型在结合标准CNN与RNN优点的基础上,利用尺度相关特征提取、混合空洞卷积(Hybrid Dilated Convolution,HDC)17、双向长短期记忆(Bidirectional Long Short-Term Memory,BiLSTM)18网络等进行性能扩展与优化,以更好地捕获说话人时域与频域特征信息,有效进行说话人识别。1相关工作 1.1系统框架说话人识别系统主要包括训练与识别两个阶段,基本框架如图 1所示。在说话人识别系统中,先对语音数据进行预处理,包括预加重、分帧和加窗。对于特征提取,声学特征是最常见的特征,典型的声学特征例如梅尔频率倒谱系图 1说话人识别系统框架