分享
基于改进语音信号双门限法端点检测算法的研究.pdf
下载文档

ID:3061787

大小:1,008.30KB

页数:6页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 改进 语音 信号 门限 端点 检测 算法 研究
第 35 卷第 3 期湖南文理学院学报(自然科学版)Vol.35 No.32023 年 9 月Journal of Hunan University of Arts and Science(Science and Technology)Sep.2023doi:10.3969/j.issn.16726146.2023.03.009基于改进语音信号双门限法端点检测算法的研究 朱敏(安徽三联学院 电子电气工程学院,安徽 合肥,230601)摘要:语音信号端点检测是语音信号预处理过程中的重要环节,传统双门限法采用短时能量和短时平均过零率,通过设置阈值进行语音信号起始点和结束点检测,在高信噪比条件下识别效果较好,但是在低信噪比下,噪声影响传统检测的速度和准确性。为了提高语音识别的效率,提出一种改进的双门限法语音端点检测算法,采用动态设定阈值,进行平滑滤波等改进方法。通过 MATLAB 仿真表明,改进算法在低信噪比下的识别准确性较高,有利于后续语音识别的研究。关键词:端点检测;双门限法;动态阈值;平滑滤波中图分类号:TN 912.3文献标志码:A文章编号:16726146(2023)03004806Research on speech signal endpoint detection algorithm based on improved doublethreshold methodZhu Min(College of Electronic and Electrical Engineering,Anhui Sanlian University,Hefei 230601,China)Abstract:Speech signal endpoint detection is a key link in the process of speech signal preprocessing.Thetraditional double threshold method uses the shorttime energy and shorttime zero crossing rate on average,anddetects the starting point and end point of speech signals by setting the threshold.The recognition effect under thecondition of high SNR is better than that of low SNR,under which noise can have an impact on the speed andaccuracy of traditional detection.In order to improve the efficiency of speech recognition,this paper proposes animproved double threshold speech endpoint detection algorithm,which adopts dynamic threshold setting and smoothfiltering.MATLAB simulation shows that the improved algorithm has high recognition accuracy under lowsignaltonoise ratio,which is conducive to subsequent research on speech recognition.Key words:endpoint detection;double threshold method;dynamic threshold value;smooth filtering检测出语音的端点是语音信号处理中极其重要的一个环节。语音端点的检测是指从包含噪声的一段语音信号中确定出语音的起始点和结束点的位置。根据端点检测,可以将语音分成有话段和无话段。有效的端点检测技术能够抑制无声段的噪声干扰,很大程度上降低后续音频特征提取以及识别相关模型建立的数据量和运算量,提高语音处理的质量。性能优越的端点检测技术对语音信号处理产生的影响使得它一直是语音信号处理的研究热点之一1。当前常用的语音信号端点检测技术包含双门限法、自相关法、谱距离法、谱熵法、小波变换和 EMD 分解法等。其中基于短时平均能量和短时平均过零率的两级判断的双门限法端点检测方法实现简单,检测结果在一定条件下能够满足需求,因此应用广泛2。传统双门限法对与语音环境要求较高,在低信噪比环境下,判断过程受到噪声干扰,准确性受到影响。在大量实验过程中发现,可以通过动态阈值的调整,平滑滤波,动态检测等几个方面进行算法的改进,通信作者:朱敏,。收稿日期:20230315基金项目:安徽省自然科学重点研究项目(KJ2021A1190;2022AH052002)。第3期朱敏:基于改进语音信号双门限法端点检测算法的研究49并且对改进后的双门限法端点检测通过 MATLAB 进行仿真测试,对比在低信噪比环境下,噪声对于检测结果的影响远远低于传统双门限法3。1语音端点检测1.1加窗分帧语音信号具有短时平稳性,在一小段时间里语音能量近似不变,因此可以将语音信号分成段来分析其特征参数,每一段称为一帧,这个时间段为帧长,一般为 1030 ms,在分帧中设置相邻两帧之间部分重叠,保证帧与帧之间特征参数平滑的变化,使其平稳过渡,保持连续性4。后一帧对前一帧的位移量称为帧移,相邻两帧的重叠部分为帧长减去帧移。对语音信号进行分帧前首先要对语音进行加窗处理:y(n)=x(n)w(n)。其中,x(n)为语音采样信号,w(n)为窗函数,y(n)为输出信号。语音信号采用具有平滑低通特性的汉明窗(Hamming Window)来进行加窗处理:2 0.540.46cos(),01()10,nnNh nN。其他(1)式(1)中,N 为帧长。本系统取帧长为 200,帧移为 80。1.2短时能量语音信号分帧后,语音信号能量随时间有较大的变化,浊音时能量值比清音大得多,从能量图中En的变化,可以判定浊音变为清音或者清音变为浊音的时刻,同时可以用来区分声母和韵母的分界以及无声段和有声段的分界。带噪声的语音信号能量分布表现为噪声的能量值要远小于正常语音能量值,纯净语音信号叠加了噪声信号后能量变得更高,静音信号被噪声信号占据,能量值远小于语音信号能量,通过设定相关的阈值就可以把语音段和非语言段区别开来5。短时能量对于高电平信号非常敏感,因此可以采用短时平均幅度来度量信号幅度,短时平均幅度和短时能量实质上是一样的,体现的都是语音的能量,可根据实际选取二者之一作为端点检测的参数。计算语音信号 y(n)的短时平均能量公式为22()()()()()mE nxm h nmxnh n。其中,短时平均能量 E(n)相当于语音信号的平方通过一个单位脉冲响应的滤波器。如果窗函数中窗口长度 m 过大,平滑作用大,信号变化不大;m 较小,没有平滑作用。因此选择合适的窗口长度对于能量的计算有着重要作用。读入一段智能家居场景下的语音文件(内容为“打开空调”),计算短时平均能量值,如图 1 所示。1.3短时平均过零率短时平均过零率表示一帧语音中语音信号波形穿过零电平的次数。输入语音信号 x(n)经分帧后的短时平均过零率计算公式为101()|sgn()sgn(1)|2NnnnZ nx mx m。其中,N 为帧长,sgn为符号函数,即1,()0,sgn()1,()0 x nx nx n。通过多次实验分析语音信号过零率发现,发浊音时具有较低的过零率,发清音时具有较高的过零率,可以区分清音与浊音。通常清音和噪声的短时平均过零率比浊音大很多,因此可以区分清音、噪声图 1语音“打开空调”波形图和它的短时能量(a)“打开空调”语音波形(b)短时能量时间/s幅值101时间/s幅值105000.5 1.0 1.52.0 2.53.0 3.5 4.04.5 5.000.5 1.0 1.5 2.02.5 3.0 3.54.0 4.5 5.050湖南文理学院学报(自然科学版)2023 年和浊音。采用短时平均过零率可以从背景噪声中找出语音信号,可以判断无话段与有话段的起始点,为了保证过零率计算稳定,排除微小漂移,对输入的语音信号做中心截幅处理,再计算过零率,提高精度。读入语音文件(内容为“打开空调”),计算短时平均过零率6,如图 2 所示。1.4传统双门限法端点检测双门限法端点检测是基于短时能量和短时平均过零率提出的,原理是汉语的韵母中有元音,能量较大,可利用短时平均能量找到韵母;而声母是辅音,频率较高,可采用短时平均过零率来进行识别。在信噪比较大时使用短时能量进行端点检测效果明显,而在信噪比较小时,采用短时平均过零率识别有效。采用这 2 种识别方法找出汉语音节,然后采用两级判别来进行端点检测7,如图 3 所示,T1、T2是短时能量的高、低门限,T3是短时平均过零率的门限值。采用基于能量和过零率的双门限比较法进行端点检测,先对语音信号计算得到短时平均能量E、背景噪声平均能量pE、背景噪声短时平均过零率Z8。设定短时能量高低门限1TE、2pTE和短时平均过零率门限3TZ,整个语音分为 4 段:静音段、语音段及过渡段及结束段。当某一帧语音信号短时能量小于低门限 T2,即 EiT2时,第 i 帧语音信号为静音帧;当 T2EiT3时,第 i 帧语音为语音起始点;当 T2Ei+kT3时,第 i+k(k0)帧语音为语音结束点,以此来判断语音信号的起始点。传统双门限法端点检测算法阈值固定,不能随信号改变而改变,并且背景噪声较大时,会影响短时过零率的计算,导致检测结果不准确,因此需要在传统检测基础上对算法进行改进9。2改进双门限法端点检测2.1动态阈值端点检测中检测准确性会受到多种因素的影响,其中,噪声是主要的影响因子。不同的噪声和不同的信噪比都会影响检测准确性10。改进双门限法检测通过设置语音前导无话段的最小长度,利用前导无话段来估算噪声的特性,对前导无话段计算噪声的短时平均能量和平均过零率,在这2个值的基础上设置短时能量高、低阈值 T1、T2和短时平均过零阈值 T3,这几个阈值不是固定值,将会随着前导无段话计算噪声的情况而发生变化。为了保证过零率计算的稳定,排除语音信号的微小的零漂移,对输入语音信号进行中心截幅处理:(),|()|,()0,|()|,iiiix mx mx mx m%其中,是一个很小的正数。中心截幅之后再计算每一帧的过零率:11()|sgn()sgn(1)|2NiimZ nx mx m%,保证过零率计算稳(b)短时能量时间/s幅值0.80.60.40.20T1T2(a)“打开”语音波形00.10.2 0.3 0.40.5 0.60.70.80.9时间/s幅值0.200.20.400.10.2 0.3 0.40.5 0.60.70.80.9图 2语音信号波形和它对应的短时平均过零率(a)“打开空调”语音波形00.5 1.0 1.52.0 2.5 3.0 3.5 4.0 4.5 5.0时间/s幅值101(b)短时平均过零率时间/s幅值15010050000.5 1.0 1.52.0 2.5 3.0 3.5 4.0 4.5 5.0图 3传统短时能量短时过零率两级判决法示意图T3(c)短时平均过零率150100500幅值时间/s00.10.2 0.3 0.40.5 0.60.70.80.9第3期朱敏:基于改进语音信号双门限法端点检测算法的研究51定。式中,1,()0,sgn()1,()0iiix mx mx m。%说话人的不同语速也会影响端点检测准确性,通过在算法中设置语音静音区的最小长度和有话段的最小长度,并根据测试的语音语速在算法中修改这 2 个值,来提高待识别的参数准确性11。在信噪比较低的情况下,识别的效果较好,但是在信噪比较高的情况下,在无话段的噪声处因为富含高频成分而有较大的过零率,比静音状态下声母和韵母段都要大,此时就有可能把整个噪音区都作为声母选中,韵母可能被判为无话段,导致检测错误,此时在改进算法中对于有话段的过零率设定寻找小于阈值T3,这样做的目的就是为了避免因噪声对过零率产生错误判断12。2.2中值滤波平滑处理在低信噪比情况下,由于噪声种类不相同,会因某些语音的能量较小,设置的阈值较低引起误判。为了减少能量曲线和过零率在无话区内的起伏,可以通过中值滤波对曲线进行平滑处理来有效地去除曲线中少量的野点,同时也不会破坏数据在 2 个平滑段的阶跃变化,进而提高端点检测的准确率。中值滤波前后对比如图 4、图 5 所示。3实验仿真及结果根据改进的双门限法端点检测算法在 Matlab 2016a 软件下进行仿真,观察对比不同信噪比下改进前后 2 种算法仿真的结果,检测改进算法的准确性。在实验室安静环境下采用笔记本电脑的音频采集器进行声音采集,采集频率为 1.6104Hz,16 位单声道,格式为 PCM 格式,保存录制语音为 wav 格式。3.1实验语音端点检测分析3.1.1高信噪比环境录制的语音“打开电视,调到中央一台”是在实验室安静环境下进行的,为了验证算法的抗噪性能,加入 30 dB 的高斯白噪声,此语音模拟高信噪比环境,用传统算法和改进算法分别去测试同一个语音,仿真结果如图 6 所示。图中实线代表有话段的开始,虚线代表有话段的结束。传统算法和改进算法识别准确性相差不大,在低噪声环境中传统算法也能够准确识别。图 4中值滤波前平滑处理(a)“打开空调”语音波形00.51.0 1.5 2.02.5 3.03.5 4.0 4.5 5.0时间/s幅值101(c)中值滤波后短时平均过零率时间/s幅值(b)短时平均过零率时间/s幅值2001000200100000.51.0 1.52.0 2.5 3.03.5 4.04.5 5.000.5 1.0 1.52.0 2.53.0 3.54.0 4.5 5.0图 5中值滤波后平滑处理(a)“打开空调”语音波形00.5 1.01.5 2.02.5 3.0 3.54.0 4.5 5.0时间/s幅值101(c)中值滤波后短时能量时间/s幅值(b)短时能量时间/s幅值1050105000.5 1.0 1.52.02.5 3.0 3.54.0 4.5 5.000.5 1.01.52.0 2.5 3.03.5 4.0 4.5 5.052湖南文理学院学报(自然科学版)2023 年3.1.2低信噪比环境在实际应用中噪声的干扰对短时平均过零率的影响较大,在语音中噪声的干扰较大时,信噪比较小,系统端点检测准确性会受到较大影响。根据改进的算法,在实验测试过程中模拟低信噪比环境,给实验室环境中录制的语音信号加入不同分贝的高斯白噪声,检测改进算法的准确性。图 7 所示为 15 dB信噪比下传统算法和改进算法的结果分析,能够看出,传统算法会受到噪声干扰,而改进后的算法能够准确识别端点。随着信噪比的降低,改进算法的识别如图 8(信噪比为 10 dB)和图 9(信噪比为 5 dB)所示,在噪声不断增强时,改进算法的识别效果仍然能够满足较高的识别准确性。3.2检测准确性对比分析端点检测准确率的计算公式为:准确率=(总帧数错误帧数)/总帧数。对实验音频信号施加不同信噪比,分别采用传统双门限法和改进后的双门限法进行端点检测,根据上述公式计算传统算法和改进算法在不同信噪比下的准确率,结果如图 10 所示。采用改进后的端点检测算法,由于动态阈值检测及中值滤波处理降低了噪声的影响,弥补了传统算法的缺陷,因此能够真正识别出有效的语音片段,使得识别的准确性得到了大幅度提高。图 630 dB 信噪比下传统与改进双门限法端点检测仿真结果(b)30 dB 信噪比下改进双门限法端点检测结果00.5 1.01.52.02.5 3.0 3.5 4.04.55.0时间/s幅值101(a)30 dB 信噪比下传统双门限法端点检测结果00.51.0 1.52.0 2.5 3.03.5 4.04.55.0时间/s幅值101图 715 dB 信噪比下传统与改进双门限法端点检测仿真结果(a)15 dB 信噪比下传统双门限法端点检测结果00.51.01.5 2.0 2.53.0 3.5 4.04.55.0时间/s幅值101(b)15 dB 信噪比下改进双门限法端点检测结果00.5 1.01.5 2.02.5 3.03.5 4.0 4.55.0时间/s幅值101图 810 dB 信噪比下传统与改进双门限法端点检测仿真结果(a)10 dB 信噪比下传统双门限法端点检测结果00.51.0 1.5 2.02.53.0 3.5 4.04.5 5.0时间/s幅值101(b)10 dB 信噪比下改进双门限法端点检测结果00.5 1.01.5 2.0 2.53.0 3.5 4.04.5 5.0时间/s幅值101图 95 dB 信噪比下传统与改进双门限法端点检测仿真结果(a)5 dB 信噪比下传统双门限法端点检测结果00.5 1.0 1.52.02.5 3.03.5 4.04.5 5.0时间/s幅值101(b)5 dB 信噪比下改进双门限法端点检测结果00.51.0 1.5 2.0 2.5 3.0 3.54.04.5 5.0时间/s幅值101第3期朱敏:基于改进语音信号双门限法端点检测算法的研究534结语本文通过对传统双门限法端点检测算法的分析,提出一种新的改进型的算法,通过设置语音前导无话段的最小长度,利用前导无话段来估算噪声的特性、计算噪声的参数,对短时能量和短时平均过零率进行动态阈值和中值滤波改进,通过软件仿真验证,通过对比不同信噪比环境下的传统和改进算法测试准确度,证明改进算法在噪声增强的情况下仍然能够保持较好的准确性,说明改进算法能够克服噪声的干扰,使得端点检测的准确性得到显著提高。参考文献:1费宇泉,王英键,夏愉乐.语音端点检测算法研究J.自动化技术与应用,2017,36(8):98102.2孙一鸣,吴杨杨,李平.基于改进双门限法的语音端点检测研究J.长春理工大学学报(自然科学版),2016,39(1):9295.3曹斌芳,彭光含,彭元杰,黎小琴.一种分层阈值优化的语音感知小波去噪方法J.湖南文理学院学报(自然科学版),2014,26(2):3539.4黄洋,赵风海,卢景.语音信号处理中双门限端点检测算法的改进J.南开大学学报(自然科学版),2021,54(2):5862.5邢立钊.语音信号端点检测算法的研究D.郑州:郑州大学,2016.6姚永强,易本顺,姚远.航空噪声背景下的语音端点检测和语音增强J.电声技术,2006,36(4):3639.7王琳,阴桂梅,陈国梅.基于端点检测的语音分割方法J.电脑编程技巧与维护.2020,59(10):151153.8宋知用.MATLAB 语音信号分析与合成(第 2 版)M.北京:北京航空航天大学出版社,2018.9姜囡.案件语音端点检测方法的改进J.中国刑警学院学报,2020,155(3):123128.10 秦坚,袁越,付金磊,尚玺.基于光OFDM信号导频功率分配优化的信道估计研究J.湖南文理学院学报(自然科学版),2019,31(4):1319.11 HAN Z Y,WANG J.Research on speech endpoint detection under low signaltonoise rationC/OL.Qingdao:The 27thChinese Control and Decision Conference,201520190328.http:/ieeexplore.ieee.org/stamp.jsp?arnumber=7162555.12 LUO Y Q,WU X P,LU Z,et al.A recursive calculating algorithm for higherorder cumulants over sliding window and itsapplication in speech endpoint detectionJ.Chinese Journal of Acoustics,2015,34(4):436449.(责任编校:张艳燕)图 10高斯白噪声不同信噪比下 2 种算法端点检测准确率1009590858075706505101520253035信噪比/dB检测准确性/%acc 传统算法bcc 改进算法

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开