基于
YOLACT
Tran
相结合
实例
分割
算法
研究
赵敬伟
收稿日期:2 0 2 2-1 1-0 2.基金项目:国家重点研发计划项目(2 0 2 1 Y F B 3 6 0 0 6 0 3);福建省自然科学基金项目(2 0 2 0 J 0 1 4 6 8).*通信作者:林志贤 E-m a i l:l z x 2 0 0 5 0 0 01 6 3.c o m光电技术及应用D O I:1 0.1 6 8 1 8/j.i s s n 1 0 0 1-5 8 6 8.2 0 2 2 1 1 0 2 0 1基于Y O L A C T与T r a n s f o r m e r相结合的实例分割算法研究赵敬伟1,2,林珊玲2,3,梅 婷1,2,林志贤1,2,3*,郭太良1,2(1.福州大学 物理与信息工程学院,福州3 5 0 1 1 6;2.中国福建光电信息科学与技术创新实验室,福州3 5 0 1 1 6;3.福州大学 先进制造学院,福建 泉州3 6 2 2 0 0)摘 要:为提高单阶段实例分割的检测精度和改善小目标漏检、错检情况,提出一种基于YO L A C T改进的YO L A C T R算法。该算法首先利用C NN与T r a n s f o r m e r相结合,设计一种新的头部预测网络,对特征进一步提取,并使用双向注意力来关联同一实例的掩码信息并区分不同实例之间的掩码特征,注重特征点周围的关联信息,使得检测框的预测更加准确;然后利用多级上采样和设计的C S注意力模块结合形成掩码分支,使其融入多种不同尺度信息,并利用C S注意力来关注不同的尺度信息。在M SC O C O数据上,YO L A C T R算法与YO L A C T算法相比,其边框和掩码检测精度分别提升了7.4%和2.9%,在小目标检测上分别提升了1 8.9%和1 3.5%。实验表明,YO L A C T R算法可以在多目标复杂场景下,提升检测和分割精度以及分类的准确度,改善小目标和重叠目标漏检、错检的问题。关键词:YO L A C T;实例分割;T r a n s f o r m e r;注意力机制;小目标检测中图分类号:T P 3 9 1.4 文章编号:1 0 0 1-5 8 6 8(2 0 2 3)0 1-0 1 3 4-0 7R e s e a r c ho nI n s t a n c eS e g m e n t a t i o nA l g o r i t h mB a s e do nY O L A C Ta n dT r a n s f o r m e rZ HAOJ i n g w e i1,2,L I NS h a n l i n g2,3,ME IT i n g1,2,L I NZ h i x i a n1,2,3,GUOT a i l i a n g1,2(1.C o l l e g eo fP h y s i c sa n dI n f o r m a t i o nE n g i n e e r i n g,F u z h o uU n i v e r s i t y,F u z h o u3 5 0 1 1 6,C H N;2.F u j i a nS c i e n c e&T e c h n o l o g yI n n o v a t i o nL a b o r a t o r yf o rO p t o e l e c t r o n i c I n f o r m a t i o no fC h i n a,F u z h o u3 5 0 1 1 6,C H N;3.S c h o o l o fA d v a n c e dM a n u f a c t u r i n g,F u z h o uU n i v e r s i t y,Q u a n z h o u3 6 2 2 0 0,C H N)A b s t r a c t:I n o r d e rt oi m p r o v e t h e s e g m e n t a t i o n a c c u r a c y o fs i n g l e s t a g ei n s t a n c es e g m e n t a t i o na n di m p r o v et h es i t u a t i o no f m i s s e da n d w r o n gd e t e c t i o no fs m a l lt a r g e t s,a ni m p r o v e dYO L A C T Ra l g o r i t h mi sp r o p o s e db a s e do nYO L A C Ta l g o r i t h m.T h ea l g o r i t h mf i r s tu s e dt h ec o m b i n a t i o no fC NN a n d T r a n s f o r m e rt od e s i g nan e w h e a dp r e d i c t i o nn e t w o r kt of u r t h e re x t r a c tf e a t u r e s,a n du s e dt w o-w a ya t t e n t i o nt oc o r r e l a t et h em a s ki n f o r m a t i o no ft h es a m e i n s t a n c ea n dd i s t i n g u i s ht h em a s kf e a t u r e sb e t w e e nd i f f e r e n t i n s t a n c e s.I tp a i da t t e n t i o nt ot h ec o r r e l a t i o n i n f o r m a t i o na r o u n dt h e f e a t u r ep o i n t s,m a k i n gt h ep r e d i c t i o no f t h ed e t e c t i o nb o xm o r ea c c u r a t e.T h e nt h em a s kb r a n c hw a s f o r m e db yt h ec o m b i n a t i o no fm u l t i-l e v e l u ps a m p l i n gm o d u l ea n dt h ed e s i g n e d C Sa t t e n t i o n m o d u l e,w h i c hi n t e g r a t e dav a r i e t yo fd i f f e r e n ts c a l ei n f o r m a t i o n.T h e nt h e C S a t t e n t i o n m o d u l e w a s u s e dt o p a y a t t e n t i o n t o d i f f e r e n ts c a l ei n f o r m a t i o n.O n t h eM SC O C Od a t a,c o m p a r e dw i t hYO L A C Ta l g o r i t h m,YO L A C T Ra l g o r i t h mi m p r o v e st h ed e t e c t i o na c c u r a c yo fb o xa n d m a s kb y7.4%a n d2.9%r e s p e c t i v e l y,a n di m p r o v e st h ed e t e c t i o na c c u r a c yo fs m a l lt a r g e t sb y1 8.9%a n d1 3.5%r e s p e c t i v e l y.E x p e r i m e n t s r e s u l t s s h o wt h a t431S EM I C O N D U C T O RO P T O E L E C T R O N I C S V o l.4 4N o.1F e b.2 0 2 3 YO L A C T Ra l g o r i t h mc a ni m p r o v et h ea c c u r a c yo fd e t e c t i o n,s e g m e n t a t i o na n dc l a s s i f i c a t i o ni nm u l t i-t a r g e t c o m p l e xs c e n e s,w h i c h i m p r o v e s t h ep r o b l e mo fm i s s e da n dw r o n gd e t e c t i o no f s m a l lt a r g e t sa n do v e r l a p p i n gt a r g e t s.K e yw o r d s:YO L A C T;i n s t a n c es e g m e n t a t i o n;T r a n s f o r m e r;a t t e n t i o nm e c h a n i s m;s m a l lt a r g e td e t e c t i o n0 引言近年来,随着深度学习的快速发展、计算机算力显著增强、存储扩大以及高质量图像数据集的出现,计算机视觉和图像处理领域进入了新的技术时代。实例分割是一项在计算机领域中具有挑战性的任务,它需要正确检测图像中所有的实例,并在像素级对每个实例进行标记。即不仅需要对不同类别的目标进行像素级别的分割,还需要对同一类别的不同实例进行区分1-3。因此实例分割可以看做是语义分割4-5和目标检测6-7相互结合的产物,其技术在自动驾驶、医疗影像、智慧农业等方面得到广泛应用8。实例分割算法从处理过程可以归纳为两阶段检测算法和单阶段检测算法两大类。两阶段检测实例分割是按照处理阶段划分,其方案主要是基于候选区域网络进行,先检测出图像中的实例所在区域,再对候选区域进行像素级实例分割。M a s kR-C NN9是经典的两阶段检测算法,该算法是在F a s t e rR-C NN1 0的基础上,在目标分类和边界框回归分支上添加了一个并行的掩码分支来预测分割结果。通常多尺度特征通过在区域候选网络(R e g i o nP r o p o s a lN e t w o r k,R P N)1 0获得感兴趣区域(R e g i o no f I n t e r e s t,R O I),然后对R O I进行池化和对齐操作(R O IA l i g n9),最后送入后续网络获得 类 别 和 实 例 掩 码。继M a s k R-C NN之 后,P AN e t1 1在M a s kR-C NN的基础上,对F P N进行改进,引入了一条自下而上的融合路径,采用自适应融合的R O I区域特征池化,融合不同层次的特征信息。M a s kS c r o i n gR-C NN1 2在M a s kR-C NN的基础上添加一个掩码评价标准,通过计算预测掩码和真实掩 码 的 交 并 比I o U来 提 高 实 例 分 割 性 能。BM a s kR-C NN1 3则在M a s kR-C NN中添加目标的边缘信息来增强掩码预测,R e f i n e M a s k1 4是利用语义信息和边缘信息来改进掩码的边缘线条。两阶段检测的方案避免了图像其他区域的干扰,提高了算法的准确性,但是严重依赖目标检测的精确性,由于其经过了两个阶段的处理,对于多实例的复杂场景,前期需要生成大量的