分享
基于无标签数据的音源分离_郭慧娴.pdf
下载文档

ID:2256710

大小:1.72MB

页数:3页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 标签 数据 音源 分离 郭慧娴
2022年第46卷第10期84器 件 与 应 用arts and ApplicationsP文献引用格式:郭慧娴.基于无标签数据的音源分离 J.电声技术,2022,46(10):84-86.GUO H X.Sound source separation based on unlabeled dataJ.Audio Engineering,2022,46(10):84-86.中图分类号:TP311.1 文献标识码:A DOI:10.16311/j.audioe.2022.10.024基于无标签数据的音源分离郭慧娴(北京师范大学 信息科学与技术学院,北京 100875)摘要:音源分离目前大多采用有监督的深度学习方法,这种方法往往需要利用大量的标签数据进行建模。然而,实际中标签数据并不容易获取且价格昂贵。针对无标签数据的音源分离只能采用有意义的先验知识来弥补标签数据的不足,对此,提出一种基于先验知识的 U-Net 模型。它既不影响现有卷积体系结构的网络复杂性,也不影响其收敛行为,但能显著改善分离后的音频质量。实验结果表明,所提出的方法的分离效果比传统模型更好。关键字:音源分离;无标签数据;U-Net 模型Sound Source Separation Based on Unlabeled DataGUO Huixian(Collage of Information Science and Technology,Beijing Normal University,Beijing 100875,China)Abstract:At present,supervised deep learning method is mostly used in sound source separation,which often needs to use a large number of label data for modeling.However,in practice,label data is not easy to obtain and expensive.For the sound source separation of unlabeled data,we can only use meaningful a priori to make up for the deficiency of labeled data.Therefore,this paper proposes a u-net model based on a priori knowledge,which does not affect the network complexity of the existing convolution architecture or its convergence behavior,but it can significantly improve the audio quality after separation.The experimental results show that the separation effect of the proposed method is better than the traditional model.Keywords:sound source separation;unlabeled data;U-Net model0 引 言音源分离是指从混合音源中恢复干净声源。近年来,利用有监督的深度学习从单通道混合音源中提取干净声源的方法取得了重大进展。有监督音源分离模型使用混合信号波形作为输入,干净的音源波形作为参考信号,估计音源波形作为输出,然后训练分离模型。深度卷积神经网络已被证明可以有效地从混合音频中分离出干净的声源,如深度聚类1-2、置换不变训练 3-4以及深度吸引器网络等5-6。最近,有人提出了无监督的深度卷积神经网络技术进行音源分离。有研究表明,对于未知音源,利用适当的先验知识是解决音源分离的有效方法。随着深度学习方法的出现,研究表明网络结构的构造隐含了求解逆问题的结构先验,可以利用它进行无监督的分离、去噪等任务 7。具体地说,首先随机初始化神经网络,再拟合退化信号,在拟合过程中,网络的输入为一张含有噪声的图像,输出是一张干净的图像。TIAN 8 等人提出了深度音频先验的方法,利用随机初始化的 U-Net 网络模型分别获得时频掩码和声源估计,但无需进行任何前期训练。这点与有监督的音源分离有本质的区别。因此,本文提出了一种深度无监督的单通道音源分离方法。该方法在不使用预先训练分离模型的情况下实现音源分离。本文提出的深度音源分离模型可以在单个音频文件上进行分离,具有以下优点:首先,通过对音频先验的适当选择,本文证明了深度音源先验可以很好地适用于各种未知的数据类型;其次,本文提出的方法不需要大量的训练数据;最后,相比于以往的无监督分离方法,所提方作者简介:郭慧娴(1998),女,本科,研究方向为音源分离。E-mail:。2022年第46卷第10期85Parts and ApplicationS器 件 与 应 用法的分离精度有进一步的提升。1 模 型无监督深度卷积神经网络技术有几个优点。首先,通过对音频先验的适当选择,分离模型可以很好地推广到各种不同的音频文件。其次,训练过程是完全无监督的,只需要单个混合音频即可分离。本文提出的网络结构主要由 U-Net 网络结构、空洞卷积以及稠密连接三个模块组成。1.1 U-Net 结构设计U-Net 是非常经典的音源分离框架。它采用完全对称的网络结构,主要由降采样模块、升采样模块以及跳连接三部分组成。降采样模块为上半部分,音源信号经过短时傅里叶变换转换到频域,将幅值作为降采样模块的输入。升采样模块为下半部分,通过逐层恢复原信号的维度,最终输出分离后的音频。但是在降采样的过程中,每一层都会丢失部分信息。为了弥补信息的损失,降采样模块与升采样模块之间采用跳连接。跳连接能够将降采样后的输出信息与升采样的输出拼接到一起,作为下一个升采样层的输入。1.2 空洞卷积音频先验的成功与否,很大程度上依赖于在不同尺度上提取的信号重构特征的质量。由于音频信号固有的周期性和复杂性,为提高分离音频信号的质量,本文在 U-Net 的所有卷积层中引入了空洞卷积。相同的计算量下,空洞卷积的覆盖面积更大。空洞卷积与普通的卷积相比,卷积核的大小是相同的,但空洞卷积还有一个膨胀率参数,主要用来表示膨胀的大小。因此,它可以得到更大的感受野,从而获得上下文的时序相关性的信息特征。1.3 稠密连接除了通过多层网络实现多尺度特征提取外,本文希望通过增加密集连接进一步增强 U-Net 架构,以鼓励特征重用,并在增加网络层时改善梯度流。稠密连接能够鼓励特征复用,极大地减少了参数数量。具体地说,本文在每个卷积块中包含了不同卷积层之间的稠密连接,即将每一层生成的特征图连接到后续层。2 深度音频先验框架假设一个给定的音频混合物 m=Rd,设定 k 为源的总数,d 为时间步数。本文假定源和混合物是单通道的,混合源为1kiimS=。深度音频先验是一个无监督的盲源分离框架9。音源分离可以表示为()()()()mix11222=112SSzMg+SzMg(1)式中:S1,S2是两个音频生成器网络,M1,M2是两个掩码网络,z1,z2,g1,g2是从随机分布中抽样。本文使用两个声音预测网络 S1和 S2以及两个掩模调制网络 M1和 M2来进行源分离,然后对混合物进行处理,得到相应的混合光谱图。目标函数公式如下:()()()()120,.arg min,kiz zzfxf+zz(2)式中:第一项度量真实和估计的混合物之间的差异,第二项是估计源上的可选正则化;x0是混合的图像,z 是随机噪声向量。神经网络参数经过多次迭代,优化后的网络参数 通过转发噪声向量,即x=f(z)得到恢复的光谱图x。3 实 验3.1 数据集Universal-150 数 据 集 包 含 来 自 YouTube 和ESC50 的 30 种独特的声音,涵盖了日常生活中出现的大量声音类别,如动物叫声(如狗、猫)、人类声音(如人类语言、婴儿哭泣)、音乐(如小提琴)、自然声音(如雨、海浪)以及家庭和城市声音(如时钟声、键盘打字声和警笛)等。3.2 实验结果与分析本文对比了传统的盲源分离方法如非负矩阵 分 解(NonnegativeMatrixFactorization,NMF)、鲁棒主成分分析(RobustPCA,RPCA)。对所有150 个声音进行分离,并通过信号失真比(Signal-to-Distortion Ratio,SDR)、信号干扰比(Signal to Interference Ratio,SIR)这两个指标对这些方法进行比较。表 1 显示了本文方法与传统盲源分离方法的性能对比结果。表 1 实验结果对比方法SDR/dBSIR/dBNMF-6.23-1.82RPCA-5.13-0.21本文所提方法-1.18 3.69这些算法的唯一输入是单个混合音频文件。SDR 和 SIR 的数值越大越好。本文的方法与 NMF、RPCA 相比,SDR 值分别提升 5.05 dB,3.95 dB,2022年第46卷第10期86器 件 与 应 用arts and ApplicationsPSIR 值分别提升 5.51 dB,3.90 dB。通过对混合信号频谱图的分离结果进行对比,能够更直观地分析本方法的分离效果。如图1所示,图 1(a)是干净的声音信号的频谱图,图 1(b)是经过本文方法分离后的声音信号频谱图。对比频谱图中的主要能量结构可知,所提方法大体上达到了较好的分离结果。0.202 5005 0007 50010 00012 50015 00017 500频率/Hz20 0000.40.6时间/s0.8(a)干净的声音信号频谱图0.202 5005 0007 50010 00012 50015 00017 500频率/Hz20 0000.40.6时间/s0.8(b)分离后的声音信号频谱图图 1 混合声谱图分离以上实验结果可以说明,本文提出的方法分离出的音频有较好的音质。4 结 语本文采用基于无监督的音频先验方法,解决无标签数据只有混合数据的情况下的音源分离问题。考虑到音频本身的特性,采用 U-Net 结构,不需要任何训练数据。由于其通用和无监督的特性,使得模型的泛化性能更好。未来将对模型进一步改进,把改进的模型与使用大量监督数据训练的模型进行比较,取得同样的分离精度。参考文献 1 HERSHEY J R,CHEN Z,ROUX J L,et al.Deep clustering:discriminative embeddings for segmentation and separation C/IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2016.2 WANG Z Q,ROUX J L,HERSHEY J R.Multi-channel deep clustering:Discriminative spectral and spatial embeddings for speaker-independent speech separationC/IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2018.3 YU D,KOLBK M,TAN Z H,et al.Permutation invariant training of deep models for speaker-independent multi talker speech separationC/IEEE International Conference on Ac

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开