温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
特征
融合
Transf
声音
事件
定位
检测
算法
研究
濮子俊
基于特征融合与T r a n s f o r m e r模型的声音事件定位与检测算法研究*濮子俊,张寿明(昆明理工大学信息工程与自动化学院,云南 昆明 6 5 0 5 0 0)摘 要:针对多通道环境声音检测问题,提出了一种引入T r a n s f o r m e r结构的特征融合网络模型T B C F-MT NN。该网络模型以对数梅尔谱和广义互相关谱作为输入,首先通过C NN和G RU获取谱的局部特征以及时间上下文关系特征,之后将2种特征图通过C r o s s-s t i t c h模块进行融合,有效解决了传统网络中多特征信息无法共享的问题;然后,将融合后的特征图送入T r a n s f o r m e r进行特征的再次采集;最终,通过全链接层输出分类和定位结果。在T AU-N I G E N S 2 0 2 0数据集上的实验结果表明,所提出的T B C F-MT NN网络在声音检测任务中的分类错误率能够减小至0.2 6;在声源定位任务中与B a s e l i n e相比较其定位误差减小至4.7;通过和B a s e l i n e、F P N、E I N等模型相比较,结果表明所提网络具有更优的识别检测效果。关键词:声音事件定位与检测;深度学习;T r a n s f o r m e r模型;C r o s s-s t i t c h;特征融合中图分类号:T P 5 1 0.4 0 1 0;T P 5 2 0.2 0 5 0文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 6.0 1 7A s o u n d e v e n t l o c a l i z a t i o n a n d d e t e c t i o n a l g o r i t h m b a s e d o n f e a t u r e f u s i o n a n d T r a n s f o r m e r m o d e lP U Z i-j u n,Z HANG S h o u-m i n g(F a c u l t y o f I n f o r m a t i o n E n g i n e e r i n g a n d A u t o m a t i o n,K u n m i n g U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,K u n m i n g 6 5 0 5 0 0,C h i n a)A b s t r a c t:A i m i n g a t t h e p r o b l e m o f m u l t i-c h a n n e l e n v i r o n m e n t a l s o u n d d e t e c t i o n,a f e a t u r e f u s i o n n e t w o r k m o d e l T B C F-MT NN i s p r o p o s e d,w h i c h i n t r o d u c e s t h e T r a n s f o r m e r s t r u c t u r e.T h e n e t w o r k s t r u c t u r e t a k e s l o g a r i t h m i c M e l-s p e c t r u m a n d g e n e r a l i z e d c r o s s-c o r r e l a t i o n s p e c t r u m a s i n p u t.F i r s t l y,t h e l o c a l f e a t u r e s o f t h e s p e c t r u m a n d t h e t e m p o r a l c o n t e x t r e l a t i o n s h i p f e a t u r e s a r e o b t a i n e d t h r o u g h C NN a n d G RU,a n d t h e n t h e t w o f e a t u r e m a p s a r e m e r g e d t h r o u g h t h e C r o s s-s t i t c h m o d u l e,w h i c h c a n e f f e c t i v e l y s o l v e t h e t r a d i t i o n a l p r o b l e m t h a t m u l t i-f e a t u r e i n f o r m a t i o n c a n n o t b e s h a r e d i n t h e n e t w o r k.S e c o n d l y,t h e f u s e d f e a t u r e m a p i s s e n t t o T r a n s f o r m e r f o r r e-c o l l e c t i o n o f f e a t u r e s.F i n a l l y t h e c l a s s i f i-c a t i o n a n d p o s i t i o n i n g r e s u l t s a r e o u t p u t t h r o u g h t h e f u l l l i n k l a y e r.T h e v e r i f i c a t i o n o n T AU-N I G E N S 2 0 2 0 d a t a s e t s h o w t h a t,c o m p a r e d w i t h t h e B a s e l i n e m o d e l,t h e T B C F-MT NN n e t w o r k c a n r e d u c e t h e c l a s s i f i c a t i o n e r r o r r a t e t o 0.2 6 i n t h e s o u n d d e t e c t i o n t a s k,a n d r e d u c e t h e l o c a l i z a t i o n e r r o r t o 4.7 i n t h e s o u n d s o u r c e l o c a l i z a t i o n t a s k.C o m p a r e d w i t h B a s e l i n e,F P N,E I N a n d o t h e r m o d e l s,t h e p r o p o s e d m o d e l h a s a b e t t e r r e c o g n i t i o n e f f e c t.K e y w o r d s:s o u n d e v e n t l o c a l i z a t i o n a n d d e t e c t i o n;d e e p l e a r n i n g;T r a n s f o r m e r m o d e l;C r o s s-s t i t c h;f e a t u r e f u s i o n*收稿日期:2 0 2 1-0 8-0 2;修回日期:2 0 2 1-1 2-1 3通信作者:张寿明(1 4 1 1 8 3 4 9 7 4q q.c o m)通信地址:6 5 0 5 0 0 云南省昆明市呈贡区昆明理工大学呈贡校区信息工程与自动化学院A d d r e s s:F a c u l t y o f I n f o r m a t i o n E n g i n e e r i n g a n d A u t o m a t i o n,C h e n g g o n g C a m p u s,K u n m i n g U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,C h e n g g o n g D i s t r i c t,K u n m i n g 6 5 0 5 0 0,Y u n n a n,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第6期2 0 2 3年6月 V o l.4 5,N o.6,J u n.2 0 2 3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 6-1 0 9 7-0 91 引言如何在复杂声音环境中对多目标声源进行准确识别是目前研究的热点与难点。复杂环境中的多声音 事 件 分 类 任 务 就 是 声 音 事 件 检 测S E D(S o u n d E v e n t D e t e c t i o n)。一般情况下,环境中会同时出现多种声音事件,传统信号处理算法已经不能满足任务的需求,因此基于人工智能的环境声音事件识别算法成为了主要研究方向。目前有许多研究人员开展了大量工作,以提高多个相互重叠的声音事件的识别准确率1 5。为了能够更加准确地实现S E D,数据集一般采用多麦克风阵列录制,获取到的多通道声音数据既包含了声音的振动信息又包含了通道间的空间信息,这些特征信息能够更准确地将声音事件区分开来。因此在S E D任务中使用的特征不仅有单通道的特征,例如声谱图、梅尔频率倒谱系数MF C C(M e l F r e q u e n c y C e p s t r a l C o e f f i c i e n t)特征以及对数梅尔频谱图L o g-M e l(L o g-M e l s p e c t r u m)特征等,同时也有多通道间的空间特征信息,例如通道间相位差I P D s(I n t e r-c h a n n e l P h a s e D i f f e r e n c e s)、广义互相关G C C(G e n e r i a l i z e d C r o s s-C o r r e l a t i o n)矩阵等。利用这2类声音特征不仅可以实现声音事件检测,同时还可以实现环境声源的定位,将这2个任务相结合就实现了声音事件定位与检测S E L D(S o u n d E v e n t L o c a l i z a t i o n a n d D e t e c t i o n)。目前绝大多数利用多通道声音数据的研究集中于S E L D任务6 1 0。相较于传统的声音识别算法,深度学习算法具有更高的识别准确率,许多深度学习网络结构在机器视觉、语音识别以及自然语言处理等领域都表现出了优异的性能,因此这些网络结构被借鉴到环境声音识别领域,在S E L D任务中也有相对较高的识别准确率。目前应用于环境声音识别的深度学习算法大 多是有监督 学习算法,以 卷积神经 网络C NN(C o n v o l u t i o n a l N e u r a l N e t w o r k)和循环神经网络R NN(R e c u r r e n t N e u r a l N e t w o r k)相结合的网络结构为主。C NN的作用是学习特征的局部信息,R NN的作用是学习特征的时间上下文关系。C NN-L S TM(C o n v o l u t i o n a l N e u r a l N e t w o r k-L