基于
Transformer
尺度
物体
检测
2 0 2 3年 第3 7卷 第4期测 试 技 术 学 报V o l.3 7 N o.4 2 0 2 3(总第1 6 0期)J O U R N A L O F T E S T A N D M E A S U R E M E N T T E C H N O L O G Y(S u m N o.1 6 0)文章编号:1 6 7 1-7 4 4 9(2 0 2 3)0 4-0 3 4 2-0 6基于T r a n s f o r m e r的多尺度物体检测 侯越千,张丽红(山西大学 物理电子工程学院,山西 太原 0 3 0 0 0 6)摘 要:目前,T r a n s f o r m e r基本模型对同一场景内不同尺寸物体的检测能力不足,其主要原因为各层等尺度的输入嵌入无法提取跨尺度特征,导致网络不具备在不同尺度的特征之间建立交互的能力。基于此,提出一种基于T r a n s f o r m e r的多尺度物体检测网络,该网络采用跨尺度嵌入层初步对图像特征进行嵌入处理;利用多分支空洞卷积对输入进行下采样,通过调整并行分支的膨胀率使该结构具有多样的感受野;然后,由残差自注意力模块对输出嵌入结果进行处理,为特征图的局部和全局信息构建联系,使注意力计算融入有效的多尺度语义信息,最终实现多尺度物体检测。模型在C O C O等数据集上进行训练,实验结果表明该方法与其他物体检测方法相比具有显著优势。关键词:物体检测;多尺度;T r a n s f o r m e r;注意力机制;空洞卷积中图分类号:T P 3 9 1.4 文献标识码:A d o i:1 0.3 9 6 9/j.i s s n.1 6 7 1-7 4 4 9.2 0 2 3.0 4.0 1 1M u l t i-S c a l e O b j e c t D e t e c t i o n B a s e d o n T r a n s f o r m e rHOU Y u e q i a n,Z HA N G L i h o n g(C o l l e g e o f P h y s i c a l a n d E l e c t r o n i c E n g i n e e r i n g,S h a n x i U n i v e r s i t y,T a i y u a n 0 3 0 0 0 6,C h i n a)A b s t r a c t:T h e c u r r e n t T r a n s f o r m e r b a s i c m o d e l i s i n a d e q u a t e f o r d e t e c t i n g o b j e c t s o f d i f f e r e n t s i z e s w i t h i n t h e s a m e s c e n e.T h e m a i n r e a s o n f o r t h i s i s t h a t t h e e q u a l-s c a l e i n p u t e m b e d d i n g o f e a c h l a y e r c a n n o t e x t r a c t c r o s s-s c a l e f e a t u r e s,r e s u l t i n g i n a n e t w o r k t h a t d o e s n o t h a v e t h e a b i l i t y t o e s t a b l i s h i n-t e r a c t i o n s b e t w e e n f e a t u r e s o f d i f f e r e n t s c a l e s.I n t h i s p a p e r,w e p r o p o s e a T r a n s f o r m e r-b a s e d m u l t i-s c a l e o b j e c t d e t e c t i o n n e t w o r k,w h i c h u s e s c r o s s-s c a l e e m b e d d i n g l a y e r s t o i n i t i a l l y e m b e d i m a g e f e a-t u r e s,i n w h i c h t h e i n p u t i s d o w n s a m p l e d u s i n g m u l t i-b r a n c h n u l l c o n v o l u t i o n,a n d t h e s t r u c t u r e i s m a d e t o h a v e d i v e r s e s e n s o r y f i e l d s b y a d j u s t i n g t h e e x p a n s i o n r a t e o f p a r a l l e l b r a n c h e s.T h e o u t p u t e m b e d-d i n g r e s u l t s a r e t h e n p r o c e s s e d b y t h e r e s i d u a l s e l f-a t t e n t i o n m o d u l e t o c o n s t r u c t l i n k s f o r l o c a l a n d g l o b-a l i n f o r m a t i o n o f t h e f e a t u r e m a p,s o t h a t t h e a t t e n t i o n c a l c u l a t i o n i n c o r p o r a t e s e f f e c t i v e m u l t i-s c a l e s e-m a n t i c i n f o r m a t i o n a n d f i n a l l y a c h i e v e s m u l t i-s c a l e o b j e c t d e t e c t i o n.T h e m o d e l s a r e t r a i n e d o n d a t a s e t s s u c h a s C O C O,a n d t h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e m e t h o d h a s s i g n i f i c a n t a d v a n t a g e s o v e r o t h e r o b j e c t d e t e c t i o n m e t h o d s.K e y w o r d s:o b j e c t d e t e c t i o n;m u l t i-s c a l e;T r a n s f o r m e r;a t t e n t i o n m e c h a n i s m;d i l a t e d c o n v o l u t i o n0 引 言物体检测是指对图像中所有感兴趣的物体进行标记,同时确定物体的类别和位置。作为计算机视觉研究的基础,物体检测广泛应用在无人驾驶、医学影片分析、人脸识别、航空航天等前沿领域,具有重大的研究价值。但是,目前的检测模型对同一场景内尺度差异较大的物体检测能力不足,主要是因为感受野限制了模型对尺度的灵活感知。多尺度物体检测是当前物体检测需要解决的难题之一。收稿日期:2 0 2 2-0 5-0 5 基金项目:山西省研究生创新资助项目(2 0 2 1 Y 1 5 4);山西省高等学校教学改革创新资助项目(J 2 0 2 1 0 8 6)作者简介:侯越千(1 9 9 9-),男,硕士生,主要从事深度学习、目标检测研究。E-m a i l:3 0 9 7 3 2 5 0 9 q q.c o m。通信作者:张丽红(1 9 6 8-),女,教授,博士,主要从事计算机视觉、机器学习研究。E-m a i l:l h z h a n g s x u.e d u.c n。近年来,卷积神经网络(C o n v o l u t i o n a l N e u r a l N e t w o r k s,C N N)1-3在计算机视觉领域兴起,基于C N N的物体检测成为了该领域的研究重点。该方法主要包括两类算法:一阶段算法,如S S D2或Y O L O4,单次检测直接得出物体的预测框与概率;二阶段算法,如F a s t e r R-C N N3或R-F C N5,首先生成候选区域,然后针对该区域利用C N N得到的特征进行分类与调节。虽然卷积神经网络对图片表层语义信息的处理具有优势,但难以自发地关注图像中物体之间的内在联系,这导致模型无法充分利用图像中的信息进行训练与预测。T r a n s f o r m e r6在 自 然 语 言 处 理(N a t u r a l L a n g u a g e P r o c e s s i n g,N L P)领域性能优越,其自注意力模块增强了分析并建立远程目标之间深度联系的能力。V I T7和D E I T8将传统的T r a n s-f o r m e r网络成功地应用到计算机视觉任务中,并充分利用其强大的注意力机制。随后,P V T9、S w i n1 0、V i T A E1 1和HV T1 2在 视 觉T r a n s-f o r m e r中引入金字塔结构,大大减少了模型的计算量。虽然视觉T r a n s f o r m e r已经取得了一些进展,但仍然难以在不同尺度特征之间建立交互。主要原因包括两方面:1)由尺寸相同的图像切片生成的嵌入只有单一尺度的特征,在通过平均池化等操作后其规模总是保持不变或均匀扩大,这使得同一层中的嵌入总是等比例的。2)在自注意力模块内,通常将相邻的嵌入进行分组及合并1 3,能有效减少计算量。同时,嵌入具有不同尺度的特征时,其合并操作会丢失嵌入的小尺度特征,从而导致无法进行多尺度注意力计算。为解决以上问题,本文提出一种基于T r a n s-f o r m e r架构的多尺度物体检测网络,实验表明,该网络在C O C O等数据集上表现优异。1 网络框架基于T r a n s f o r m e r的多尺度物体检测网络的主干架构如图 1 所示,网络主体分为4个阶段,每阶段由1个跨尺度嵌入模块和n个残差自注意力模块组成,其中n1=n2=n4=2,n3=6。首先,将图片输入到跨尺度嵌入模块进行下采样,在模块内部设计多分支空洞卷积,卷积核根据不同的膨胀率分别提取小、中、大尺度图像切片作为嵌入,将嵌入投影合并之后输入残差自注意力模块;其次,通过残差自注意力模块有效地构建图像中存在的远程语义联系;再次,将第4阶段输出的特征图输入到分类预测模块,利用全连接层和S o f t m a x函数完成分类,最后,将图像分类权重输入到检测器进行物体检测。图 1 基于T r a n s f o r m e r的多尺度物体检测网络主干架构F i g.1 T r a n s f o r m e r-b a s e d m u l t i-s c a l e o b j e c t d e t e c t i o n n e t w o r k b a c k b o n e a r c h i t e c t u r e2 跨尺度嵌入模块跨尺度嵌入模块为每阶段生成输入嵌入,在接收输入图像后利用卷积对图像进行采样,各分支卷积核的步长相等,以保证生成嵌入的数量一致。由于多尺度物体检测要求提