融合
注意力
尺度
优化
立体
匹配
算法
研究
谢鑫
北大中文核心期刊国外电子测量技术 D O I:1 0.1 9 6 5 2/j.c n k i.f e m t.2 2 0 4 3 9 4融合注意力和多尺度的优化立体匹配算法研究*谢 鑫 张 博 张美灵 朱 磊(西安工程大学电子信息学院 西安 7 1 0 0 4 8)摘 要:当前基于卷积神经网络的立体匹配方法未充分利用图像中各个层级的特征图信息,造成图像在不适定区域的特征提取能力较差,因此,提出了一种基于P S MN e t改进的优化立体匹配算法。在特征提取阶段,全新的特征金字塔模块(S P P)能更好的聚合不同尺度和不同位置的环境信息构建代价体,从而充分利用全局环境信息;在构建匹配代价体时,提出组相关的策略来充分地利用特征中的全局和局部信息;在代价聚合阶段,优化沙漏结构并引入通道注意力机制以便网络来提取具有高表示能力和高质量通道注意力向量的信息特征;为了进一步优化视差图,设计视差优化网络来改善初始的视差估计。在S c e n e F l o w、K I T T I 2 0 1 2 和 K I T T I 2 0 1 5 立体数据集上评估,所提模型在S c e n e F l o w数据集上平均预测误差E P E降低到0.7 1 p i x-e l s,在K I T T I 2 0 1 2 和 K I T T I 2 0 1 5 立体数据集上的误匹配率分别下降到1.2 0%和1.8 6%,在实验结果表明,方法取得了较优越的性能。关键词:立体匹配;深度学习;注意力机制;卷积神经网络;分组相关量;视差优化中图分类号:T P 3 9 1文献标识码:A国家标准学科分类代码:5 1 0.7 0R e s e a r c h o n o p t i m a l s t e r e o m a t c h i n g a l g o r i t h m c o m b i n i n g a t t e n t i o n a n d m u l t i-s c a l eX i e X i n Z h a n g B o Z h a n g M e i l i n g Z h u L e i(S c h o o l o f E l e c t r o n i c s a n d I n f o r m a t i o n,X i a n P o l y t e c h n i c U n i v e r s i t y,X i a n 7 1 0 0 4 8,C h i n a)A b s t r a c t:T h i s p a p e r p r e s e n t s a n i m p r o v e d s t e r e o m a t c h i n g a l g o r i t h m b a s e d o n P S MN e t.I n t h e f e a t u r e e x t r a c t i o n s t a g e,t h e n e w S P P f e a t u r e p y r a m i d m o d u l e c a n b e t t e r a g g r e g a t e t h e e n v i r o n m e n t a l i n f o r m a t i o n o f d i f f e r e n t s c a l e s a n d d i f f e r e n t l o c a t i o n s t o c o n s t r u c t c o s t v o l u m e,i n o r d e r t o m a k e f u l l u s e o f t h e g l o b a l e n v i r o n m e n t a l i n f o r m a t i o n.Wh e n c o n s t r u c t i n g t h e m a t c h i n g c o s t v o l u m e,t h e g r o u p c o r r e l a t i o n s t r a t e g y i s p r o p o s e d t o m a k e f u l l u s e o f t h e g l o b a l a n d l o c a l i n f o r m a t i o n i n f e a t u r e s.I n t h e c o s t a g g r e g a t i o n s t a g e,t h e h o u r g l a s s s t r u c t u r e i s o p t i m i z e d a n d t h e c h a n n e l a t t e n t i o n m e c h a n i s m i s i n t r o d u c e d s o t h a t t h e n e t w o r k c a n e x t r a c t t h e i n f o r m a t i o n f e a t u r e s w i t h h i g h r e p r e s e n t a t i o n a b i l i t y a n d h i g h q u a l i t y c h a n n e l a t t e n t i o n v e c t o r.I n o r d e r t o f u r t h e r o p t i m i z e t h e d i s p a r i t y m a p,a d i s p a r i t y o p t i m i z a t i o n n e t w o r k i s d e s i g n e d t o i m p r o v e t h e i n i t i a l d i s p a r i t y e s t i m a t i o n.T h e m e t h o d i n t h i s p a p e r i s e v a l u a t e d o n S c e n e F l o w,K I T T I 2 0 1 2 a n d K I T T I 2 0 1 5 s t e r e o d a t a s e t s,a n d t h e a v e r a g e p r e d i c t i o n e r r o r E P E o f t h e p r o p o s e d m o d e l o n S c e n e F l o w d a t a s e t i s r e d u c e d t o 0.7 1 p i x e l s.T h e m i s m a t c h i n g r a t e s o n K I T T I 2 0 1 2 a n d K I T T I 2 0 1 5 s t e r e o d a t a s e t s d e c r e a s e d t o 1.2 0%a n d 1.8 6%,r e s p e c t i v e l y.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e p r o p o s e d m e t h o d a c h i e v e s s u p e r i o r p e r f o r m a n c e.K e y w o r d s:s t e r e o m a t c h i n g;d e e p l e a r n i n g;a t t e n t i o n m e c h a n i s m;c o n v o l u t i o n n e u r a l n e t w o r k;g r o u p c o r r e l a t i o n q u a n t i-t y;p a r a l l a x o p t i m i z a t i o n 收稿日期:2 0 2 2-1 0-0 7*基金项目:国家自然科学基金(6 1 9 7 1 3 3 9)、陕西省重点研发计划(2 0 1 9 G Y-1 1 3)、陕西省自然科学基础研究计划(2 0 1 9 J Q-3 6 1)项目资助0 引 言不同视点影像之间的同名像点信息的搜索可以通过立体匹配来实现,立体匹配已成为双目立体视觉中最核心、最重要的一个环节,尤其在基于影像的三维重建1-2技术中起着至关重要的作用。其寻找的信息促进了多个领98 国外电子测量技术北大中文核心期刊域的应用发展,例如基于低纹理匹配的视觉任务3、数字表面模型及数字高程模型的制作、实景三维模型重建4、自动驾驶5、多视影像的结构恢复、智能机器人、生物医学6等。传统的立体匹配算法主要围绕损失计算和视差优化展开研究。在计算匹配损失时,主要通过设计良好的度量函数来优化匹配损失;但是,传统算法均采用人工设计的浅函数,在一些病态区域(如反射表面、弱纹理、反光等)处效果不佳,存在大量孔洞和误匹配,在复杂场景下难以实现应用,无论是速度还是精度方面,传统算法的发展都不尽人意。随着深度学习在语义分割、目标检测与识别等高级视觉技术方面取得了阶段性的进展,立体匹配任务也可以通过卷积神经网络(c o n v o l u t i o n a l n e u r a l n e t w o r k s,C NN)来实现。卷积神经网络由于拥有较强的特征提取能力,通过简单的非线性模型从原始图像中提取出更加抽象的特征,并且在整个过程中只需少量的人工参与,从而取代了传统手工制作特征描述符的方法。将端对端的神经网络进行立体匹配时,神经网络在多层次、多方面挖掘全局特征信息,在速度和精度方面相比传统算法都发生了大的跳跃,算法具有很强的鲁棒性。深度学习在各个研究领域都得到了广泛的应用,尤其是卷积神经网络,不仅提高了图像识别和分类的准确性,还提升了在线运算效率,立体匹配可以借助深度学习方法完成。文献7-8 提出了MC-C NN,通过从矫正后的图像对中提取深度信息,训练一个卷积神经网络来预测两个图像块的匹配程度并计算立体匹配代价,一举超越了传统算法。文献9 巧妙地在MC-C NN网络中引入S GM算法的思想,提出了匹配置信度融合方法。文献1 0 构建了双目视觉标准数据集F l y i n g T h i n g s 3 D,标志着基于端到端的深度学习开 始 广 泛 地 被 应 用 到 立 体 匹 配 算 法 当 中。文献1 1 将全卷积神经网络(f u l l y c o n v o l u t i o n a l n e t w o r k s,F C N)应用在深度学习任务语义中取得了阶段性的效果,提出了在光流估计和视差估计当中引入了端到端的神经网络D i s p N e t,在新建立的数据集上成功的训练了网络,当时在K I T T 1 2 0 1 2在线排行榜上排名第1,错误率达到了1.7 5%,匹配速度达到了0.0 6 s。文献1 2 在D i s p N e t的基础上引入多尺度进行残差学习并且添加了上采样来获得更精细化的视差图。文献1 3 所提出的G C-N e t将立体匹配问题转化成了回归问题,利用了图像对的上下文的邻域信息和场景的几何信息,从核线立体像对中端到端的直接输出视差。文献1 4 提出i R e s N e t网络,在端对端的立体匹配网络中整合传统立体匹配的4个步骤,将得到的初始视差图与源图像空间中的特征进行对比反馈优化,输出最终的视差图。文献1 5 设计的一个金字塔网络P S-MN e t则是在立体匹配过程中利用全局上下文环境信息,将像素级特征扩展至不同尺度的区域级特征,是立体匹配发展历程中最经典的端对端立体匹配网络,具有很高的研究意义。文献1