温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
聚焦
信号
空间
估计
导向
矢量
干扰
声源
抑制
方法
周静
第 1 期2023 年1 月电子学报ACTA ELECTRONICA SINICAVol.51 No.1Jan.2023基于聚焦信号子空间估计导向矢量的干扰声源抑制方法周静,鲍长春,张旭(北京工业大学信息学部语音与音频信号处理实验室,北京 100124)摘要:针对最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)波束形成器对导向矢量失配较敏感的问题,本文提出了一种有效的干扰声源抑制方法.该方法首先将语音信号的频带划分为多个子带,通过聚焦信号子空间方法估计各子带的声源到达方向(Direction of Arrival,DOA),并采用统计直方图估计各声源的初始DOA;其次,为了减小导向矢量失配,利用声源的空间稀疏性,通过Capon功率构建目标声源导向矢量估计的代价函数,约束目标声源导向矢量远离干扰声源空间;最后,根据估计的导向矢量,估计干扰声源加噪声协方差矩阵,以获得MVDR波束形成器的权重.基于TIMIT语料库的实验结果证明,提出的干扰声源抑制方法的输出信干噪比(SINR)及语音质量感知评价(PESQ)优于参考方法,具有更佳的抗导向矢量失配性能.关键词:语音增强;麦克风阵列;波束形成;聚焦信号子空间;最小方差无失真响应基金项目:国家自然科学基金(No.61831019)中图分类号:TN912文献标识码:A文章编号:0372-2112(2023)01-0076-10电子学报URL:http:/DOI:10.12263/DZXB.20220210Suppression Method of the Interference Sound Sources by Estimated Steering Vector Based on the Focusing Signal SubspaceZHOU Jing,BAO Chang-chun,ZHANG Xu(Speech and Audio Signal Processing Laboratory,Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)Abstract:Based on the problem that the minimum variance distortionless response(MVDR)beamformer is very sensitive to the mismatch of the steering vector,an effective method of suppressing the interference sound sources is proposed in this paper.First,the bandwidth of speech signal is divided into multiple sub-bands,and the direction of arrival(DOA)of sound sources at each sub-band is estimated by the focusing signal subspace method.Specially,the initial DOA of each sound source is estimated via statistical histogram.Second,in order to reduce the mismatch of the steering vector,based on the spatial sparsity of sound sources,the cost function used for the steering vector estimation of the target sound source is constructed by Capon power so that the steering vector of the target sound source is constrained away from the space of interference sound sources.Finally,the covariance matrix of interference sound source plus noise is estimated based on the estimated steering vector for obtaining the weights of the MVDR beamformer.The experimental results on the TIMIT corpus show that the proposed method outperforms the reference methods on the tests of the output signal to interference-plus-noise ratio(SINR)and the perceptual evaluation of speech quality(PESQ)and has a better performance for preventing the mismatch of the steering vector.Key words:speech enhancement;microphone array;beamforming;focusing signal subspace;minimum variance distortionless response Foundation Item(s):National Natural Science Foundation of China(No.61831019)1引言随着互联网技术与人工智能产业的迅速发展,远场语音通信的应用场景越来越多,如远场人机交互、远场视听会议等,且质量需求也越来越高1,2.然而,由于噪声及干扰声源等因素的影响,远场语音通信的质量收稿日期:2022-03-01;修回日期:2022-10-03;责任编辑:李勇锋第 1 期周静:基于聚焦信号子空间估计导向矢量的干扰声源抑制方法不如人意,尤其是干扰声源极易导致语音识别率的下降和降低通信中的远端用户听觉质量35.针对这一问题,学者们提出了许多解决方法58.如基于自适应无失真响应波束形成进行空域滤波的方法能够保障目标方向的信号被无失真滤波,因其具有自适应零陷抑制干扰声源的优点4,5,8而得到广泛的研究与应用.在自适应无失真响应波束形成器中,最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)波束形成器因其约束简洁、优化处理灵活,故常被用于干扰声源及噪声的抑制中.然而,MVDR是基于观测信号协方差矩阵求逆的自适应波束形成器,所以,其性能极易受导向矢量失配的影响3,9,10.造成导向矢量失配的主要因素是声源到达方向(Direction Of Arrival,DOA)失配和阵列结构失配.DOA失配是指所估计的声源入射角存在误差,其极易导致主瓣对准上的偏差,甚至出现主瓣自消现象,使得目标声源失真.针对这一问题,学者们提出了许多有效的DOA估计算法,如基于波束形成功率估计的方法、基于极大似然估计的方法、基于稀疏表示的方法和基于子空间的方法等11,12.其中,基于子空间的方法因其空间高分辨率的优点而备受关注,如经典的多信号分类(MUltiple SIgnal Classification,MUSIC)法11.建立在MUSIC方法的基础上,大量基于子空间的宽带DOA估计方法被提出,如Su等13提出了非相干信号子空间(Incoherent Signal Subspace,ISS)法,即通过MUSIC估计多个窄带的DOA并取均值作为宽带DOA估计的结果,但其在低信噪比(Signal to Noise Ratio,SNR)子带存在DOA估计误差较大及无法有效估计相干声源DOA等问题.Wang等14基于ISS提出了相干信号子空间(Coherent Signal Subspace,CSS)法,即通过频率聚焦的方式构建聚焦协方差矩阵,规避了多子带独立DOA估计导致误差较大的问题,且在一定程度上提高了满秩协方差矩阵的稳定性,但由于声源信息和噪声的不均匀分布以及需要预估DOA信息,CSS的性能受到一定的限制.随后,基于频率聚焦的思想,Ma等15提出了聚焦信号子空间(Focusing Signal Subspace,FSS)法,即通过奇异值分解(Singular Value Decomposition,SVD)构建酉聚焦矩阵,避免了预估DOA的问题.Beit-On等16在FSS的基础上,通过分解带宽来减小宽带聚焦误差,并将该方法应用于机器人头部阵列中.针对噪声的非均匀分布问题,曹等17提出了一种有色噪声下差分聚焦的宽带DOA估计方法,减小了“伪峰”影响.贾等18提出了一种改进的信号子空间聚焦方法,根据波长选取三个子带进行DOA估计,进一步提高了DOA估计的空间分辨率,但它不适用于非均匀分布的宽带信号.尽管这些方法做出了不少改进,但在声源定位应用中依然存在较大误差.阵列结构失配是指阵元间距存在误差19,一般是由工艺生产或人为布置误差造成的,且往往难以人为测量校正.与DOA失配不同,阵列结构失配下的真实导向矢量将不再满足传统的导向矢量形式,即阵元间的相对时延不再固定.因此,学者们将DOA估计误差和阵元间距误差统一归结为导向矢量失配的问题,并期望通过构建不确定集来求解更为准确的导向矢量信息.如,Stoica等20通过在不确定集内求解与噪声子空间正交性最强的导向矢量来修正DOA与阵列结构失配的误差,但该方法依赖于噪声子空间划分的准确性;Gu等21利用声源信号的空间稀疏性,通过误差补偿因子来修正导向矢量,并约束补偿结果远离干扰声源空间,改善了依赖于噪声子空间的缺点.Yang 等22在文献21 的基础上,通过 Capon 功率谱估计干扰声源子空间,并约束估计的导向矢量偏离干扰声源子空间,但其性能也依赖于噪声子空间划分的准确性.杨等10在文献 21 基础上,通过独立约束估计的导向矢量偏离噪声空间和干扰声源空间,在不确定集内确定了更佳的误差补偿因子,但其增加了算法对约束式所需变量准确性的负荷.故Zhang等9将问题转向于目标声源联合噪声的信号空间,在导向矢量不确定集内求解使得目标声源Capon功率最大的导向矢量,但其并不能保障在干扰声源与目标声源的DOA较近时所估计到的导向矢量远离干扰声源空间.基于上述问题,本文提出了一种基于聚焦信号子空间估计导向矢量的方法,并将其用于远场语音通信中干扰声源的抑制,提升了传统MVDR波束形成器在DOA与阵列结构失配下干扰声源抑制的性能.2DOA估计2.1基于FSS的DOA估计设自由场内存在Q个声源,则t时刻M元均匀线性阵列(Uniform Linear Array,ULA)的观测信号向量x?(t)可表示为:x?(t)=q=1Qs?q(t)+n?(t)(1)其中,x?(t)RM1,s?q(t)RM1表示第q个声源入射到ULA的信号向量,n?(t)RM1为噪声向量,且假设声源及噪声信号间均相互独立.符号“R”表示实数矩阵维度.将观测信号x?(t)经短时傅里叶变换(Short Time Fourier Transform,STFT)变换到频域,可得:x(k,l)=q=1Qa(k,q)sq(k,l)+n(k,l)(2)其中,k和l分别表示频点和语音帧的索引,a(k,q)CM1为第q个声源的导向矢量,sq(k,l)为第q个声源的STFT,77电子学报2023 年q为第q个声源相对于ULA的入射角,x(k,l)和n(k,l)为x?(t)和n?(t)的STFT变换.符号“