基于
感知
条件
网络
可控
语音
增强
模型
DOI:10.J2210872May2023Chinese Journal of ScientificIInstrument2023年5月Vol.44 No.5第44卷第5期表仪报器仪学基于感知条件网络的可控语音增强模型袁文浩,屈庆洋,梁春燕,夏斌(山东理工大学计算机科学与技术学院淄博255000)摘要:为了给不同听者在不同场景下提供更好的语音增强主观听觉感受,提出了一种基于感知条件网络的可控语音增强模型。首先设计分位数损失函数来对语音的高估和低估进行权衡,并以此来指导网络的训练,通过调节网络输出中的语音损失和噪声残留水平,来控制模型的输出特性。然后为了让单个网络具有可变的输出特性,引人条件网络,利用分位数损失函数中与听者感知相关的分位值产生条件信息来对含噪语音特征进行调制,建立了可控的语音增强模型。实验结果表明,设计的分位数损失函数能够有效调节增强语音中的语音损失和噪声残留水平;基于感知条件网络建立的可控语音增强模型,能够提供可由听者主动控制的增强语音输出特性,使听者获得更好的语音增强体验关键词:语音增强;深度学习;深度神经网络;条件网络;损失函数中图分类号:TN912.3TH701文献标识码:A国家标准学科分类代码:510.40Controllable speech enhancement model basedon perceptual conditional networkYuan Wenhao,Qu Qingyang,Liang Chunyan,Xia Bin(School of Computer Science and Technology,Shandong University of Technology,Zibo 255000,China)Abstract:To provide better subjective auditory perception of speech enhancement for different listeners in different environments,acontrollable speech enhancement model based on the perceptual conditional network is proposed.First,a quantile loss function isdesigned to balance the overestimation and underestimation of speech,which is used to guide the training of network.In this way,theoutput characteristics of model are controlled by adjusting the level of noise residual and speech distortion in the output of the network.Then,to make a single speech enhancement network has variable output characteristics,the conditional network is introduced.Theconditional information is generated by the quantile value related to auditory perception in the quantile loss function to modulate the noisyspeech features,and a controllable speech enhancement model is established.The experimental results show that,the designed quantileloss function can effectively adjust the level of residual noise and speech distortion in the enhanced speech,and the proposed controllablespeech enhancement model based on the perceptual conditional network can provide variable characteristics of enhanced speech that canbe actively controlled by the listener.The listener can get a better speech enhancement experience.Keywords:speech enhancement;deep learning;deep neural network;conditional network;loss function0引言传统语音增强方法一般基于统计学原理,其对于平稳噪声具有较好的处理效果,但是在低信噪比和非平稳噪声条件下性能会急剧下降。针对传统语音增强方法的不足,近年来,研究人员将深度学习技术应用于语音增强,提出了基于深度神经网络的语音增强方法。基于深度神经网络的语音增强方法利用大量语音和噪声样本数据进行网络训练,建立起含噪语音和增强语音之间的映射关系,相比传统方法显著提高了语音增强性能 研究人员对基于深度神经网络的语音增强方法开展了广泛的研究,提出了多种不同形式的语音增强网络(s p e e c h e n h a n c e m e n t n e t w o r k,SE-NET)。根据语音增强收稿日期:2 0 2 2-12-13Received Date:2022-12-13*基金项目:山东省自然科学基金(ZR2022MF330,ZR2021MF017)、国家自然科学基金(6 17 0 12 8 6)项目资助表54仪器仪报学第44卷网络所采用的特征形式,基于深度神经网络的语音增强方法可以分为时域、时频域以及时域和时频域结合3类。时域方法直接以含噪语音的波形特征作为输人,通过语音增强网络处理,输出相应增强语音的波形,是一种端到端的处理方法。时域方法不需要进行信号的时频分析,具有更简单的处理流程,且能够充分利用语音的相位信息。但是,由于时域波形特征缺乏明显的结构信息,需要更加复杂的网络结构对其进行建模 2-8 时频域方法以含噪语音短时傅里叶变换后的时频谱特征作为输入,根据是否在语音增强网络中考虑相位信息,时频域方法又可以分为两类。第1类方法在网络的设计中忽略语音的相位信息,采用含噪语音短时傅里叶变换后的幅度谱、功率谱或者对数功率谱特征作为输人,通过语音增强网络处理,计算得到相应增强语音的幅度谱,然后使用含噪语音的相位谱来重构增强语音 914。第2 类方法在网络设计中考虑了相位信息,采用含噪语音短时傅里叶变换后的复数谱特征作为输人,通过语音增强网络处理,计算得到相应增强语音的复数谱,然后重构得到增强语音 15-2 基于时域和时频域方法各自的优缺点,研究人员尝试将两种方法进行结合,提出了基于时域和时频域结合的方法。该类方法将一个时域语音增强网络与一个时频域语音增强网络进行级联,同时估计纯净语音的时域波形和时频域频谱 2-5,经过近几年的快速发展,基于深度神经网络的语音增强方法的研究工作已经取得了诸多成果。但是,在INTERSPEECH2021DNS挑战赛的比赛结果分析中,赛事组织者指出,对于由speech MOS测量的主观语音质量,所有参加比赛的19支队伍中只有2 支队伍取得了比含噪语音更好的结果 2 6,表明现有的大多数语音增强方法在追求噪声抑制性能的同时,牺牲了语音保持的性能,实际上,对于所有的语音增强方法,增强语音与纯净语音之间的误差都可以归纳为两个方面:语音损失和噪声残留。对于一个已经训练好的语音增强网络,由于其参数是固定的,对于一段含噪语音,其输出的增强语音中语音损失和噪声残留水平也是固定的。而不同听者对语音损失和噪声残留的接受程度是不同的,同一网络对不同含噪语音的语音保持和噪声抑制水平也是不同的;因此,单一固定的语音增强网络不能为不同听者在不同噪声场景下提供持续良好的语音增强主观听觉感受。基于以上分析,为了给听者提供更好的语音增强主观体验,本文提出一种基于感知条件网络的可控语音增强模型,该模型具备可控的多种不同输出特性,能够依据听者的主观听觉感受权衡增强语音中的语音损失和噪声残留水平。1可控语音增强模型1.1基于网络切换的可控语音增强模型对于语音增强的效果,基于耳朵的主观听觉感受,人们虽然不能进行增强语音质量和可懂度的精确评价,但是能够对增强语音中语音损失的严重程度和噪声残留的多少进行粗略判断,这一判断能够反映语音增强系统在当前场景下的输出特性,可以作为反馈帮助调整优化语音增强网络,将这一主观判断定义为感知反馈。建立可控的语音增强模型的关键是如何训练与感知反馈相关的具有不同输出特性的一系列语音增强网络。本文以损失函数的设计作为网络训练时输出特性的控制手段,在损失函数中对语音保持和噪声抑制水平进行参数化调整,分别为语音保持和噪声残留设计独立的损失函数L,和Ld,模型的整体损失函数为两个损失函数的加权和,即:L=入L,+(1-入)Ld(1)其中,L,衡量的是语音损失水平,L衡量的是噪声残留的水平,入是权衡两者之间关系的权重参数。显然,不同的入对应不同的损失函数,因此对应不同的入可以训练不同的语音增强网络,每个语音增强网络在语音保持和噪声抑制之间建立了不同的权衡关系,也即拥有不同的输出特性。在进行语音增强时,听者可以根据自己的主观听觉感受在不同的网络之间进行切换,选择具有更好听感的网络;也即,听者可以通过调节入的值来控制模型的输出特性,实现语音增强模型的动态调整,因此入可以作为联系听者主观听觉感知和模型输出特性的可控系数,如图1所示网络切换感知反馈SE-NETI输出特性1语音保持含噪语音SE-NET2输出特性2噪声抑制SE-NETN输出特性N图1基于网络切换的可控语音增强模型Fig.1Controllable speech enhancement modelbased on network switching1.2分位数损失函数需要注意的是,在真实语音中,语音损失和噪声残留并非是独立存在的,两者往往共同出现,相互影响,难以55第5期袁文浩等:基于感知条件网络的可控语音增强模型进行独立的衡量,式(1)中的损失函数是无法实现的。针对该问题,考虑对于语音的高估往往会引人噪声成分残留,而对于语音的低估往往会带来语音成分的损失,本文为时频域语音增强设计一种分位数损失函数,通过损失函数对语音的高估和低估进行权衡,间接来控制增强语音中的语音损失和噪声残留水平。在时频域,对于语音频谱的幅度掩蔽,分位数损失函数定义为:Lguanile(R,R)=max(R-R),(1-)(R-R)(2)其中,R=IS|YI、R=I S|YI 分别是理想幅度谱掩蔽及其估计值,S、Y和S分别代表含噪语音谱、纯净语音谱和估计语音谱。由式(2)可知,分位数损失函数能够通过分位值入(0 入4.0独立训练网络基于感知条件网络的可控模型3.53.02.52.01.51.00.500.10.20.30.40.50.6 0.70.80.9(c)不同下的COVL对比(c)Comparison of COVL under different 3.0独立训练网络基于感知条件网络的可控模型2.52.0SHd1.51.00.500.10.2 0.30.40.50.60.70.80.9(d)不同下的PESQ对比(d)ComparisonofPESQunderdifferent2图5不同入下的独立训练网络与基于感知条件网络的可控模型的语音增强性能比较Fig.5 Comparison of speech enhancement performancebetween independent trained networks and the controllablemodel based on perceptual conditional networkunder different 入下的平均PESQ得分。可见,当为每段含噪语音设置最佳分位值时,模型取得明显更高的平均PESQ得分,表明通过进行输出特性的控制,本文模型能够为听者在不同噪声条件下提供更好的语音增强性能表3不同入下的平均PESQ得分Table3AveragePESQscoreunderdifferentA入0.10.20.30.40.5PESQ2.012.212.362.492.60入0.60.70.80.9入PESQ2.692.762.802.812.854结论为了给不同听者在不同场景下持续提供良好的语音增强主观听觉感受,需要语音增强模型具有可控的多种输出特性。考虑对于语音的高估往往会引人残留噪声成分,而对于语音的低估往往会带来语音成分的损失,本文设计了一种用于时频域语音增强的分位数损失函数来对语音的高估和低估进行权衡,从而间接控制增强语音中的语音损失和噪声残留水平,以达到控制语音增强模型输出特性的目的。以此为基础,为了让单个语音增强网络具有可变的输出特性,本文引人条件网络结构,以分位数损失函数中与听者感知相关的分位值作为条件信息的来源,利用条件信息对含噪语音特征进行线性调制,建立了一种可控的语音增强模型。最后,在公开数据集上通过语音增强实验分别对分位数损失函数的有效性和可控语音增强模型的性能进行了验证分析,实验结果表明:本文设计的分位数损失函数具备调节增强语音中的语音损失和噪声残留水平的能力;基于感知条件网络建立的可控语音增强模型,能够依据听者的主观听觉感受提供不同特性的增强语音输出,使听者获得更好的语音增强体验。本文仅仅采用了一种比较简单的时频域语音增强网络来验证可控模型的有效性,下一步将采用更加复杂的时频域语音增强网络结构来进行实验验证,并将该模型扩展应用到时域语音增强中。另外,由于实验条件限制,本文对分位值的划分比较粗略,利用训练得到的网络只能实现对输出特性的粗略控制;下一步的研究将对分位值进行更加精细的划分,从而实现对增强语音中语音损失和噪声残留水平更加精确的控制参考文献1李吉祥,倪旭昇,颜上取,等基于A-DResUnet的语音增强方法 J电子测量与仪器学报,2 0 2 2,36(10):131-137.LIJ X,NI X SH,YAN SH Q,et al.Speech59第5期袁文浩等:基于感知条件网络的可控语音增强模型enhancement method based on A-DResUnet J.Journalof Electronic Measurement and Instrumentation,2022,36(10):131-137.2PASCUAL S,BONAFONTE A,SERRA J.SEGAN:Speech enhancement generative adversarial network C.Proceedings of the 18th Annual Conference of theInternationalSpeechCommunicationAssociation,Stockholm:ISCA,2017:3642-3646.3RETHAGED,PONS J,SERRA X.Awavenet forspeech denoising C .Pr o c e e d i n g s o f t h e 43r dInternational Conference on Acoustics,Speech,andSignal Processing,Alberta:IEEE,2018:5069-5073.4QIAN K,ZHANG Y,CHANG S,et al.Speechenhancement using Bayesian wavenet C.Proceedings ofthe 18th Annual Conference of the International SpeechCommunication Association,Stockholm:ISCA,2017:2013-2017.5PANDEY A,WANG D L.A new framework for CNN-based speech enhancement in the time domain J.IEEE/ACM Transactions on Audio,Sp e e c h,a n dLanguage Processing,2019,27(7):1179-1188.6PANDEY A,WANG D L.Dense CNN with self-attentionfor time-domain speech enhancement J.IEEE/ACMTransactionsonAudio,Sp e e c h,a n dLanguageProcessing,2021,29:1270-1279.7DEFOSSEZ,SYNNAEVE G,ADI Y.Real time speechenhancement in the waveform domain C.Proceedingsof the 21st Annual Conference of the International SpeechCommunication Association,Shanghai:ISCA,2020:3291-3295.8WANG K,HE B,ZHUW P.TSTNN:Two-stagetransformer based neural network for speech enhancementin the time domain C.Pr o c e e d i n g s o f t h e 46 t hInternational Conference on Acoustics,Speech,andSignal Processing,Toronto:IEEE,2021:7098-7102.9】XU Y,DU J,DAI L,et al.An experimental study onspeech enhancement based on deep neural networks J.IEEE Signal Processing Letters,2014,21(1):65-68.10XU Y,DU J,DAI L,et al.A regression approach tospeech enhancement based on deep neural networks J.IEEE/ACM Transactions on Audio,Sp e e c h,andLanguage Processing,2015,23(1):7-19.11HUANG P S,KIM M,HASEGAWA-JOHNSON M,et al.Joint optimization of masks and deep recurrentneural networks for monaural source separation J.IEEE/ACMTransactionsonAudio,Speech,andLanguage Processing,2015,23(12):2136-2147.12CHEN J,WANG D.Long short-term memory for speakergeneralization in supervised speech separation J.Journal of the Acoustical Society of America,2017,141(6):4705-4714.13TAN K,CHEN J,WANG D.Gated residual networkswithdilatedconvolutionsformonauralspeechenhancement J.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2 0 19,2 7(1):189-198.14LI Y,LI X,DONG Y,et al.Densely connected networkwith time-frequency dilated convolution for speechenhancement C.Proceedings of the 44th InternationalConferenceonAcoustics,Sp e e c h,a n dSignalProcessing,Brighton:IEEE,2019:6860-6864.15WILLIAMSON D S,WANG Y,WANG D L.Complexratio masking for monaural speech separation J.IEEE/ACM Transactions on Audio,Speech,and LanguageProcessing,2016:24(3):483-492.16PANDEY A,WANG D L.Exploring deep complexnetworks for complex spectrogram enhancement C.Proceedings of the 44th International Conference onAcoustics,Speech,and Signal Processing,Brighton:IEEE,2019:6885-6889.17TAN K,WANG D L.Learning complex spectral mappingwith gated convolutional recurrent networks for monauralspeech enhancement J.IEEE/ACM Transactions onAudio,Speech,and Language Processing,2020,28:380-390.18HU Y,LIU Y,LYU S,et al.DCCRN:Deep complexconvolution recurrent network for phase-aware speechenhancement C.Proceedings of the 21st AnnualConference of the International Speech CommunicationAssociation,Shanghai:ISCA,2020:2472-2476.19LV S,HU Y,ZHANG S,et al.DCCRN+:Channel-wise subband dccrn with snr estimation for speechenhancement C.Proceedings of the 22nd AnnualConference of the International Speech CommunicationAssociation,Brno:ISCA,2021:2816-2820.20WANG Z Q,WICHERN G,LE ROUX J.On thecompensation between magnitude and phase in speechseparationJ.IEEE Signal Processing Letters,2021,28:2018-2022.21ZHANG L,WANG M,ZHANG Q,et al.PhaseDCN:Aphase-enhanced dual-path dilated convolutional networkfor single-channel speech enhancementJ.IEEE/ACM作者简介表60仪仪器报学第44卷TransactionsonAudio,Speech,andLanguageProcessing,2021,29:2561-2574.22LI A,LIU W,ZHENG C,et al.Two heads are betterthan one:A two-stage complex spectral mappingapproach for monaural speech enhancement J.IEEE/ACM Transactions on Audio,Speech,and LanguageProcessing,2021,29:1829-1843.23 NAIR A A,KOISHIDA K.Cascaded time+time-frequencyunetforspeechenhancement:Jointlyaddressing clipping,codec distortions,and gaps C.Proceedings of the 46th International Conference onAcoustics,Speech,and Signal Processing,T o r o n t o:IEEE,2021:7153-7157.24NAREDDULA S K R,GORTHI S,GORTHI R K S S.Fusion-net:Time-frequency information fusion Y-networkfor speech enhancement C.Proceedings of the 22ndAnnualConferenceeoftheInternationalSpeechCommunicationAssociation,Brno:ISCA,22021:3360-3364.25ZHANG K,HE S,LI H,et al.DBNet:A dual-branchnetwork architecture processing on spectrum andwaveform for single-channel speech enhancement C.Proceedings of the 22nd Annual Conference of theInternational Speech Communication Association,Brno:ISCA,2021:2821-2825.26REDDY C KA,DUBEY H,KOISHIDA K,et al.INTERSPEECH2021deepnoisesuppressionchallengeC.Proceedingssofthe22ndAnnualConference of the International Speech CommunicationAssociation,Brno:ISCA,2021:2796-2800.27DOSOVITSKIY A,DJOLONGA J.You only train once:Loss-conditionaltraining of deep networks C .Proceedings of the 8th International ConferenceonLearning Representations,Virtual:ICLR,2020.28VALENTINI-BOTINHAO C,WANG X,TAKAKI S,et al.Speech enhancement for a noise-robust text-to-speech synthesis system using deep recurrent neuralnetworks C.Pr o c e e d i n g s o f t h e 17 t h AAnnualConference of the International Speech CommunicationAssociation,California:ISCA,2016:352-356.29HU Y,LOIZOU P C.Evaluation of objective qualitymeasuresforsspeechenhancement J .IEEETransactionsonAudio,Speech,andLanguageProcessing,2007,16(1):229-238.30RIXAW,BEERENDSJG,HOLLIERM P,et al.Perceptual evaluation of speech quality(PESQ)-a newmethod for speech quality assessment of telephonenetworks and codecs C.Proceedings of the 26thInternational Conference on Acoustics,Speech,andSignal Processing,Utah:IEEE,2001:749-752.袁文浩(通信作者),2 0 0 8 年于华东理工大学获得学士学位,2 0 13年于华东理工大学获得博士学位,现为山东理工大学副教授,主要研究方向为语音信号处理、深度学习。E-mail:why_Yuan Wenhao(Co r r e s p o n d i n g a u t h o r)r e c e i v e d h i s B.Sc.degree from East China University of Science and Technology in2008,and received his Ph.D.degree from East China Universityof Science and Technology in 2013.He is currently an associateprofessor at Shandong University of Technology.His mainresearch interests include speech signal processing and deeplearning.