分享
一种融合相位的先验信噪比算法_魏静.pdf
下载文档

ID:2727710

大小:2.57MB

页数:4页

格式:PDF

时间:2023-10-13

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种 融合 相位 先验 算法 魏静
2022年第46卷第12期112器 件 与 应 用器 件 与 应 用arts and ApplicationsP文献引用格式:魏静,王雪婷,刘法胜.一种融合相位的先验信噪比算法 J.电声技术,2022,46(12):112-115.WEI J,WANG X T,LIU F S.A priori signal-to-noise ratio algorithm based on phaseJ.Audio Engineering,2022,46(12):112-115.中图分类号:TN912.2 文献标识码:A DOI:10.16311/j.audioe.2022.12.027一种融合相位的先验信噪比算法魏 静,王雪婷,刘法胜(山东外事职业大学 信息与控制工程学院,山东 威海 264500)摘要:研究表明,大多数语音增强算法都存在一个核心参数先验信噪比,常用的估计先验信噪比的算法是直接判决法(Decision-Directed,DD)。然而,传统的 DD 算法是在纯净语音谱与噪声谱相互正交的前提条件下完成,其结果会导致增强后的语音质量受损。为了更加准确地估计先验信噪比,利用三角函数关系,提出一种融合相位影响的先验信噪比估计。仿真实验显示,所提的算法能够明显提升语音增强质量。关键词:语音增强;先验信噪比;相位A Priori Signal-to-Noise Ratio Algorithm Based on PhaseWEI Jing,WANG Xueting,LIU Fasheng(School of Information and Control Engineering,Shandong Vocational University of Foreign Affairs,Weihai 264500,China)Abstract:Research shows that for most speech enhancement algorithms,there is a core parameter-a priori signal to noise ratio.The commonly used algorithm to estimate the priori signal to noise ratio is Decision-Directed(DD)algorithm.However,the traditional DD algorithm is completed on the premise that the pure speech spectrum and the noise spectrum are orthogonal to each other,and the result will cause the enhanced speech quality to be damaged.In order to estimate a priori Signal Noise Ratio(SNR)more accurately,a priori SNR estimation based on phase effect is proposed by using trigonometric function.Simulation results show that the proposed algorithm can significantly improve the quality of speech enhancement.Keywords:speech enhancement;a priori signal noise ratio;phase0 引 言古往今来,语言在人类的生活中一直扮演着重要的角色。它不仅是表达情感的一种手段,还是传递信息的有效工具。人们在使用语言交流或者传递信息时,必不可免地会受到周围环境的影响,导致对方接收到的语音信号掺杂了无用信息。这时候,人们迫切希望有一种技术能够消除这种掺杂的声音。由此,语音增强技术应运而生。自从信息革命爆发,随着计算机的普及,语音信号处理技术迅猛发展,语音增强技术也逐渐成为一门主流学科,经过几十年的发展形成了一套较为完善的理论体系。现如今,语音增强技术已经运用在各行各业,如移动通信行业、智能家居行业以及医疗救助行业等等。语音增强技术是消除噪声的一项有效手段。然而,想要完整地从带噪语音信号中提取出纯净语音信号,完全消除掉噪声信号,目前来说仍存在一定难度。因此,现阶段的语音增强技术大多致力于提高语音的可懂度或者减小语音的失真度。语音增强技术众多,其中经典的语音增强技术有谱减法、维纳滤波算法以及最小均方差(Minimum Mean Square Error,MMSE)估计算法等1-2。1 增益因子设 x(n)为纯净语音信号,v(n)是加性噪声,则带噪语音信号可表示如下:基金项目:山东外事职业大学自然科学重点项目(2022ZD03)。作者简介:魏 静(1991),女,硕士,助教,研究方向为语音信号处理。2022年第46卷第12期113Parts and ApplicationS器 件 与 应 用器 件 与 应 用 ()()()?(),2,2,110.5m km km km km km km km km km km km km km ky nx nv n=+(1)假设加性噪声 v(n)与纯净语音信号 x(n)是相互统计独立的。式(1)两边同时进行离散傅里叶变换(Discrete Fourier Transform,DFT)可得:()()()?(),m km km km km km km km km km km km km km ky nx nv nYXV=+(2)式中:Ym,k,Xm,k和 Vm,k分别为带噪语音信号、纯净语音信号和噪声信号的频谱。通常,纯净语音谱Xm,k的估计表示如下:?(),2,2,110.5m km km km km km km km km km km km km km ky nx nv nYXVXGY=(3)式中:Gm,k为增益因子。根据增强算法中所选的失真函数不同,增益因子也会随之变化。例如,维纳滤波器算法的增益因子为 (),110.5m km km km km km km km km km km km km km ky nx nv nYXVXGYG=+(4)功率谱减法的增益因子在式(4)基础上开根号。最小均方差意义上的幅度谱估计算法,其相应的幅度增益因子为 2,2,10.5m km km km km kG=+(5)最大似然估计频谱减法增益因子为 ,0.5 11m km km kG=+(6)在以上几个计算式中,m,k和 m,k分别为频点 k处第 m 帧的先验信噪比和后验信噪比。以上增益因子存在一个共同的特点:其取值区间都被限制在 0 13。由式(1)可知,带噪语音分量实际上为纯净语音分量与噪声信号分量的线性叠加。但是加入相位影响后,噪声分量和纯净语音分量的符号存在较大的不确定性。也就是说增益因子限定在 0,1,是假设纯净语音谱相位和噪声谱相位相等的条件下估计的,因此增强语音信号会产生严重的失真。通过式(4)式(6)可知,增益因子是先验信噪比和后验信噪比的二元函数。固定后验信噪比,增益因子的取值仅与先验信噪比有关4。因此,先验信噪比参数的准确估计,是语音增强算法的核心问题。其中,最常用的算法是直接判决法(Decision-Directed,DD)。DD 算法包括两部分,前一部分是对第 m-1 帧先验信噪比的估计,后一部分是第 m 帧先验信噪比的估计。两部分通过平滑参数 加权而成5。由于 DD 算法存在一帧延迟,会造成语音失真。后来,PLAPOUS 等人提出了一种两步噪声消除(Two-Step Noise Reduction,TSNR)算法。该算法在抑制音乐噪声的同时,能够有效地消除 DD算法产生的时间延迟效应。最近,又有学者在 DD算法的基础上引入增加动量项算法和改进的直接判决(Modified Decision-Directed,MDD)算法6。2 本文提出的算法经典的语音增强算法估计先验信噪比,是基于噪声相位与纯净语音相位相等的假设条件下完成,忽略了相位对算法的影响。但是在实际中,两个语音信号的相位是在(0,2)随机分布的,因此在以上的假设条件中,得到的纯净语音谱会引入不必要的误差。为了消除忽略相位带来的误差,可以用带噪语音信号、纯净语音信号、噪声信号之间的三角函数关系来估计纯净语音信号的相位。在频率域中:()()()(),jjj222222220.5 11eeeVYXYXVYXVXVXVXYVYVYVXXVYYVGaaa=+(7)式中:aY,aX和 aV分别表示带噪语音、纯净语音和噪声的幅度,Y,X和 V分别表示其相位。根据三角函数关系可得:()()()(),jjj222222220.5 11eee2cos2cos1 cos1 cosVYXm km km kYXVYXVXVXVXYVYVYVXXVYYVGaaaaaaa a=+(8)()()()(),jjj222222220.5 11eee2cos2cos1 cos1 cosVYXm km km kYXVYXVXVXVXYVYVYVXXVYYVGaaaaaaa aaaaa a=+(9)()()221 cos1 cosXXVYYVaa=(10)通过上述公式,可进一步推出纯净语音的功率谱:()()22221 cos1 cosYVXYXVaa=(11)由余弦定理可得:()()()()()22222222222222222,2CDD,1,1 cos1 coscos12cos1241411YVXYXVYXYYVVVVYXXYVVVVGm kGm kmkm kaaaaaaaa=+(12)()()()()22222222222222222,2CDD,1,1 cos1 coscos12cos1241411YVXYXVYXYYVVVVYXXYVVVVGm kGm kmkm kaaaaaaaaaaaaaa=+=(13)定义22XVYVaa=为瞬时先验信噪比,2222YVaaaa=为瞬时2022年第46卷第12期114器 件 与 应 用器 件 与 应 用arts and ApplicationsP后验信噪比。因此,为了提高先验信噪比参数估计的准确性,融合相位的先验信噪比估计公式为 ()()()22222222222222222,2CDD,1,1 cos1 coscos12cos1241411YVXYXVYXYYVVVVYXXYVVVVGm kGm kmkm kaaaaaaaaaaaaaa=+=+=(14)将式(14)代入 DD 算法得出先验信噪比为 ()CDD,1,1Gm kmkm k=+(15)3 实验仿真结果比较为了进一步验证本文提出算法的可靠性,下面采用客观评判测度对各个算法的输出进行分析,分别在 factory,white,babble,f16 四种背景噪声和不同水平输入信噪比(0 15 dB)环境下,使用两种客观评价测度来评估算法的性能,分别是对数谱距离(Log Spectral Distance,LSD)测度和短时客观清晰度(Short-Time Objective Intelligibility,STOI)测度。20 段纯净语音信号作为测试语音数据,采样频率均为 8 kHz,每一带噪语音帧包含 256 个采样点,帧间重叠率设为 50%。LSD 反映的是增强后的语音与纯净语音的接近程度,数值越小,代表增强语音信号失真程度越小。四种算法的输出语音信号 LSD 得分如图 1 所示,可以看出,本文提出的 CDD 算法处理后的语音失真程度最小。STOI 表示的是语音可懂度高度,数值越大,说明增强后的语音可懂度越高。四种算法的输出语音信号平均 STOI 得分如图 2 所示,可051015SNR/dB2.02.53.03.54.04.5LSDDDMDDTSNRCDD 051015SNR/dBSNR/dBSNR/dBSNR/dB2

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开