温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
视觉
变换
注意力
全景
图像
显著
检测
基于鲁棒视觉变换和多注意力的全景图像显著性检测陈晓雷*张鹏程卢禹冰曹宝宁(兰州理工大学电气工程与信息工程学院兰州730050)(兰州理工大学甘肃省工业过程先进控制重点实验室兰州730050)(兰州理工大学电气与控制工程国家级实验教学示范中心兰州730050)摘要:针对当前全景图像显著性检测方法存在检测精度偏低、模型收敛速度慢和计算量大等问题,该文提出一种基于鲁棒视觉变换和多注意力的U型网络(URMNet)模型。该模型使用球形卷积提取全景图像的多尺度特征,减轻了全景图像经等矩形投影后的失真。使用鲁棒视觉变换模块提取4种尺度特征图所包含的显著信息,采用卷积嵌入的方式降低特征图的分辨率,增强模型的鲁棒性。使用多注意力模块,根据空间注意力与通道注意力间的关系,有选择地融合多维度注意力。最后逐步融合多层特征,形成全景图像显著图。纬度加权损失函数使该文模型具有更快的收敛速度。在两个公开数据集上的实验表明,该文所提模型因使用了鲁棒视觉变换模块和多注意力模块,其性能优于其他6种先进方法,能进一步提高全景图像显著性检测精度。关键词:全景图像;显著性检测;卷积神经网络;视觉变换;注意力机制中图分类号:TP391文献标识码:A文章编号:1009-5896(2023)06-2246-10DOI:10.11999/JEIT220684Saliency Detection of Panoramic Images Based on Robust VisionTransformer and Multiple AttentionCHENXiaoleiZHANGPengchengLUYubingCAOBaoning(School of Electrical Engineering and Information Engineering,Lanzhou University of Technology,Lanzhou 730050,China)(Gansu Provincial Key Laboratory of Advanced Control for Industrial Processes,Lanzhou University of Technology,Lanzhou 730050,China)(National Experimental Teaching demonstration Center of Electrical and Control Engineering,Lanzhou University of Technology,Lanzhou 730050,China)Abstract:Consideringtheproblemsoflowdetectionaccuracy,slowmodelconvergencespeedandlargeamountofcomputationincurrentpanoramaimagesaliencydetectionmethods,aU-NetwithRobustvisiontransformerandMultipleattentionmodules(URNet)isproposed.Sphereconvolutionisusedtoextractmulti-scalefeaturesofpanoramicimagesofthemodel,whilereducingthedistortionofpanoramicimagesafterequirectangularprojection.Therobustvisualtransformermoduleisusedtoextractthesalientinformationcontainedinthefeaturemapsoffourscales,andtheconvolutionalembeddingisusedtoreducetheresolutionofthefeaturemapsandenhancetherobustnessofthemodel.Themultipleattentionmoduleisusedtoselectivelyintegratemulti-dimensionalattentionaccordingtotherelationshipbetweenspatialattentionandchannelattention.Finally,themulti-layerfeaturesaregraduallyfusedtoformapanoramicimagesaliencymap.Thelatitudeweightedlossfunctionisusedtomakethemodelinthispaperhaveafasterconvergencerate.Experimentsontwopublicdatasetsshowthatthemodelproposedinthispaperoutperformsother6advancedmethodsduetotheuseofarobustvisualtransformermoduleandamultipleattentionmodule,andcanfurtherimprovethesaliencydetectionaccuracyofpanoramicimages.Key words:Panoramicimage;Saliencydetection;ConvolutionalNeuralNetwork(CNN);Visiontransformer;Attentionmechanism收稿日期:2022-05-26;改回日期:2022-08-18;网络出版:2022-08-23*通信作者:陈晓雷基金项目:国家自然科学基金(61967012)FoundationItem:TheNationalNaturalScienceFoundationofChina(61967012)第45卷第6期电子与信息学报Vol.45No.62023年6月JournalofElectronics&InformationTechnologyJun.20231 引言图像显著性检测的目的是模拟人的视觉特点,提取图像中人类更加关注的区域1。进行全景图像显著性检测,不仅可以提高全景图像的压缩效率,减少传输带宽,而且对全景图像编辑起着至关重要的作用。此外还有力支撑了图像分割、图像检索、目标追踪识别和机器人导航2等计算机视觉任务。全景图像的显著性检测中,对图像特征的提取效果直接影响最终的显著性检测效果。Zhang等人3提出了一种球形卷积,并验证了球形U型网络对全景视频显著性检测的有效性。Coors等人4提出了一种可以避免极点过采样的球形卷积。Martin等人5提出的显著性检测的方法,主观检测结果好,收敛较缓慢。全景图像显著性检测时,有多种投影方式,如等矩形投影和立方体投影等。Dai等人6将全景图像以立方体的格式输入扩展卷积神经网络,同时处理立方体的6个面进行全景图像的显著性检测。Monroy等人7提出了对卷积神经网络(ConvolutionalNeuralNetwork,CNN)的架构扩展,以端到端的方式对全景图像进行显著性检测。以上方法将全景图像投影成2D图像的过程会造成不同程度的信息缺失,因此最终显著性检测结果的性能指标也会受其影响。Dahou等人8提出用于全景视频显著性检测的基于新注意力的显著性模型(anovelATtentionbasedSaliencymodel,ATSal),该模型对全局视觉静态注意力进行显式编码。Zhu等人9针对显著性检测过程中,全景图像数据集规模小的问题,提出注意力感知特征融合网络。上述方法凭借注意力机制提高了全景图像显著性检测结果的性能指标得分,但这些指标还有上升的空间。为了提高检测结果的精度,Chao等人10提出从全景图像的3个不同视场(FieldofViews,FoV)的每个视口提取特征再融合的显著性检测方法。该方法在性能指标上能取得较好的结果,但是具有很高的计算量。综上所述,以上方法都有各自的优势,但存在模型收敛速度慢、实际使用受限、全景图像投影成2D图像造成失真以及高计算量等问题。为了解决上述问题,本文提出一种新的全景图像显著性检测网络:基于鲁棒视觉变换和多注意力的U型网络(U-NetwithRobustvisiontransformerandMultipleat-tentionmodules,URMNet)。主要贡献如下:(1)提出URMNet网络模型,与目前主流全景图像显著性检测模型相比,进一步提升了全景图像显著性检测评价指标。(2)提出鲁棒视觉变换模块(RobustVisionTransformer,RVT),采用卷积嵌入的方式,通过调整特征图的空间和通道维度,降低了分辨率,解决了网络准确度饱和与性能退化的问题,增强了模型的鲁棒性;提出多注意力模块(MultipleAtten-tion,MA),通过融合多维度注意力,提升网络的特征提取能力,提高显著性检测精确度。(3)提出更简洁的纬度加权损失函数Loss,加快模型收敛速度,提升全景图像显著性检测效果。(4)对原始全景图像显著性检测数据集,即全景图像注意(AttentiononOmnidirectionalImages,AOI)11、Salient36012分别进行数据增强得到新的数据集,即增强全景图像注意(AugmentAOI,AAOI)、增强显著360(AugmentSalient360,ASalient360),大幅增多数据集图像数量。本文模型在两种类型的数据集上达到了预期的效果,证明了模型的有效性和泛化能力。2 本文模型2.1 URMNet网络概述本文提出一种基于鲁棒视觉变换(RVT)和多注意力(MA)的全景图像显著性检测网络URMNet,如图1所示。URMNet是类U型结构,由编码器、解码器、RVT模块和MA模块组成。URMNet的工作流程如下:输入全景图像到编码模块,首先用球形卷积(sphereconvolution)4进行特征提取,然后进行批归一化(BatchNormalization,BN)和修正线性单元(RectifiedLinearUnit,ReLU)激活操作,得到第1尺度特征图,再进行球形池化。如此循环4次可得到5种尺度的特征图,这些特征图包含浅层的细节信息和深层的语义信息。将前4种尺度的特征图送入由4个rvt子模块组成的RVT模块,RVT模块可以提取4种尺度特征图所包含的显著信息。同时,最小尺度的特征图通过MA模块的多注意力机制有选择地融合空间和通道显著信息。融合后的显著信息经过上采样后送入解码器首先与RVT模块对应尺度的输出进行拼接,然后经过球形卷积、批归一化BN以及ReLU激活操作进一步细化生成的聚合特征,按此过程一共重复4次逐渐生成精确的显著图。2.2 rvt子模块为了提高特征的提取速度并兼顾全景图像的全局特征,本文采用包含了多通道自注意力机制的变换器(图1中变换器1)。经过实验,随着RVT-Block(见图2)块数的增多,模型的检测精度会提高,同时在变换器后期降低空间分辨率有利于提高模型的鲁棒性13。因此在变换器1之后,进行空间池化,第6期陈晓雷等:基于鲁棒视觉变换和多注意力的全景图像显著性检测2247如图1中rvt所示。变换器1与2中分别包含12个与4个RVT-Block。为了匹配解码器输出维度,对变换器2的输出进行卷积及上采样。为了解决随着网络的加深,模型准确度饱和以及性能退化的问题,将rvt子模块的输入与上采样后的特征图相加,得到rvt的输出。2.2.1 特征图预处理本文采用卷积嵌入的方法进行特征图重构。特征图预处理过程如图3所示。首先对输入的特征图进行卷积操作再归一化。然后通过平均池化提取特征图的局部信息,同时通过最大池化提取特征图峰值信息。将经过两种池化操作的特征图融合,再进行卷积操作。预处理的输出Ype可表示为Ype=Conv2(Pool(BN(Conv5(Xpe)(1)Xpe