第49卷第4期2023年4月ComputerEngineering计算机工程基于尺度相关⁃双向长短期记忆网络模型的说话人识别曹书鑫1,冯藤藤1,葛凤培2,梁春燕1(1.山东理工大学计算机科学与技术学院,山东淄博255049;2.北京邮电大学图书馆,北京100876)摘要:说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别。通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息。实验结果表明,SCCNN-BiLSTM网络模型在LibriSpeech和AISHELL-1数据集上迭代50000次时的等错率为7.21%和6.55%,相比于ResCNN基线网络模型提升了25.3%和41.0%。关键词:说话人识别;深度学习;尺度相关卷积;感受野;长短期记忆网络开放科学(资源服务)标志码(OSID):源代码链接:https://gitee.com/csx0707/speaker-recognition/tree/master中文引用格式:曹书鑫,冯藤藤,葛凤培,等.基于尺度相关-双向长短期记忆网络模型的说话人识别[J].计算机工程,2023,49(4):289-296.英文引用格式:CAOSX,FENGTT,GEFP,etal.Speakerrecognitionbasedonscalecorrelation-bidirectionallongshort-termmemorynetworkmodel[J].ComputerEngineering,2023,49(4):289-296.SpeakerRecognitionBasedonScaleCorrelation-BidirectionalLongShort-TermMemoryNetworkModelCAOShuxin1,FENGTengteng1,GEFengpei2,LIANGChunyan1(1.SchoolofComputerScienceandTechnology,ShandongUniversityofTechnology,Zibo255049,Shandong,China;2.Library,BeijingUniversityofPostsandTelecommunications,Beijing100876,China)【Abstract】Speakerrecognitionidentifiesspeakersbasedontheirutteredspeech.However,mostofthespeechexhibitsdiversityinthetime-frequencydomain.Currently,inthespeakerrecognitionfield,thedeeplearningmodelsbasedonConvolutionalNeuralNetwork(CNN)generallyusesasingleconvolutionkernelforfeatureextraction,whichfailstoextractscale-relatedan...