温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
双层
视觉
尺度
注意力
融合
图像
邬开俊
第 50 卷 第 2 期2 0 2 3 年 2 月Vol.50,No.2Feb.2 0 2 3湖 南 大 学 学 报(自 然 科 学 版)Journal of Hunan University(Natural Sciences)基于双层视觉及多尺度注意力融合的图像去雾邬开俊,丁元(兰州交通大学 电子与信息工程学院,甘肃 兰州 730070)摘 要:针对现有去雾算法缺乏对雾霾图像不同区域噪音浓度的关注以及远近景特征的区分问题,本文提出了一种新的生成对抗网络模型.模型中通过两个UNet3+网络实现全尺度的跳跃连接和深度监督,使用多尺度融合的方法结合不同尺度特征图中的高低级语义;而深度监督的加入可以更好地学习图像中的远近层次表示.同时在生成器结构中加入融合改进自注意力机制的多尺度金字塔特征融合模块,以便更好地保留特征图的多尺度结构信息,并且提高了对不同雾霾浓度区域的关注度.实验结果显示,在NTIRE 2020、NTIRE 2021、O-Haze数据集和Dense-Haze数据集上,本文所提出的算法网络相比BPPNET等其他先进算法可以得到更好的视觉效果,在Dense-Haze数据集上,峰值信噪比和结构相似性指数分别达到24.82和0.769.关键词:图像去噪;图像去雾;生成对抗网络;注意力机制;多尺度特征融合;金字塔网络中图分类号:TP391.4 文献标志码:AImage Dehazing via Double-layer Vision and Multi-scale Attention FusionWU Kaijun,DING Yuan(College of Electronics and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)Abstract:Aiming at the problem that the existing dehazing algorithms lack attention to the noise concentration in different regions of the hazy image and the distinction between far and near features,this paper proposes a new generative adversarial network model.In the model,two UNet3+networks are used to realize the full-scale jump connection and depth supervision,and multi-scale feature fusion is used to extract the high and low-level semantics in different scale feature images.The addition of deep supervision can better learn the near-far level representation in the image.At the same time,the multi-scale pyramid feature fusion module integrating the self-attention mechanism is added to the generator structure to better retain the multi-scale structure information of the feature map and improve the attention to different haze concentration regions.The experimental results show that the algorithm network can obtain better visual effects than other advanced algorithms such as BPPNET on NTIRE 2020,NTIRE 2021,O-Haze datasets,and Dense-Haze datasets.The peak signal-to-noise ratio and structural similarity index on the Dense-Haze dataset are,respectively,24.82 and 0.769.收稿日期:2022-04-28基金项目:国家自然科学基金资助项目(61966022),National Natural Science Foundation of China(61966022);甘肃省自然科学基金资助项目(21JR7RA300),Natural Science Foundation of Gansu Province(21JR7RA300);甘肃省敦煌文物保护研究中心开放课题资助(GDW2021YB15),Open Project of Dunhuang Cultural Relics Protection Research Center in Gansu Province(GDW2021YB15)作者简介:邬开俊(1978),男,山东莒南人,博士,兰州交通大学教授,博士生导师,CCF会员(E200026740G)通信联系人,E-mail:文章编号:1674-2974(2023)02-0040-12DOI:10.16339/ki.hdxbzkb.2023268第 2 期邬开俊等:基于双层视觉及多尺度注意力融合的图像去雾 Key words:image denoising;image dehazing;generative adversarial network;attention mechanism;multi-scale feature fusion;pyramid network工业发展给环境造成了影响,大气中的悬浮颗粒也逐渐增加,导致雾霾天气的发生,并且使得日常生活中得到的图像产生模糊、对比度下降等问题,因此对这类图像进行目标检测、目标识别、跟踪和分割等计算机视觉任务会变得更为复杂.以上情况使得计算机视觉的自动化和远程监控系统等应用无法正常发挥作用,因此如何提高均匀和非均匀雾霾图像的清晰度、对比度以及突出场景细节等问题具有重要的研究意义.传统的图像去雾算法包括经典的图像增强算法,如直方图均衡化、Retinex算法1等,这类算法主要通过增强雾霾图像的饱和度以及对比度来提高降质图像的质量,但实质并没有从雾霾产生的条件出发.另一类传统的图像去雾算法基于大气散射模型2,包括基于暗通道去雾算法3、变分模型去雾算法4、自适应雾度衰减去雾算法5、颜色衰减去雾算法6等,这类算法通过先验知识估算大气散射模型参数,然后通过反演得到去雾图像,这类算法受先验知识的约束,导致鲁棒性较差.计算机硬件包括图形处理器(Graphics Processing Unit,GPU)和张量处理器(Tensor Processing Unit,TPU)的发展,加速了计算机视觉任务的处理速度,出现了许多图像处理方面的新型算法.近年来,基于深度学习的图像去雾算法对比传统去雾算法,效果得到了很大的提升,但是仍然存在颜色退化、纹理消失和光晕失真等问题.在真实世界中,图像场景的雾霾分布并非均匀,所以图像场景中物体的退化程度也有较大差异.对于这种非均匀雾霾图像,在去雾模型的设计中应该加入相应模块,注重处理不同空间的不同雾霾浓度和不同景深的不同色彩退化问题.以上问题可以采用多尺度模型和注意力机制来解决,例如文献 7 中采用多UNet网络分别输出不同尺度特征再进行合并的方式实现多尺度特征提取,虽然该模型通过对图像不同空间尺度特征的分层整合来实现高级和低级特征的学习,但是使用这种方法采用大量的下采样和上采样操作,模型规模大,训练和运行时间较长.综上,本文采用了一种新的深度学习体系结构,该体系结构采用了双层视觉特征提取及多尺度注意力特征融合.该模型采用生成对抗网络(Generative Adversarial Network,GAN)8架构,采用 UNet3+9和金字塔特征融合模块构成生成器来提取复杂的雾霾特征,文献 9 中证明在保障相同的编码结构的前提下,UNet3+的参数量相比UNet更少,并且UNet3+网络结合了多尺度特征,采用新的跳跃连接方式,并利用多尺度的深度监督,可以在更少的参数条件下,产生更有效的特征图.融合自注意力多尺度金字塔特征融合模块可以有效利用 UNet3+网络所提取的不同尺度的空间信息,并提出了一种自注意力机制(Self Attention,SA)的改进方法,降低像素内部的高相关性在学习中的相互干扰,加大注意力特征图对总体特征分析的影响.1 相关工作本篇论文研究图像去雾方法,单幅图像去雾是一个不适定问题,因为测试数据不足,不能很好地学习雾霾图像的特征,不能较好地训练模型,而且去雾模型对于图像噪声十分敏感.根据大气散射模型,雾霾图像是由大气光、场景中物体的反照率和雾霾介质的透射图来确定.去雾过程中必须预测未知的透射图和大气光值,在过去,已经提出了许多方法来完成这一预测.这种方法可分为两类,即基于先验的方法和基于学习的方法.基于先验的方法依赖从图像中人工获取先验知识,利用额外的数学补偿来构建去雾的信息;基于学习的方法则利用神经网络直接学习无雾图像和雾霾图像之间的映射关系,实现端到端的输出.Tan10在算法中加入马尔可夫随机场来最大化雾霾图像的局部对比度实现去雾.He等人3提出了利用暗通道先验估计来预测大气散射模型透射图的方式实现去雾,之后改进暗通道的去雾技术不断出现,比如吴迪等人11提出的基于暗通道的快速图像去雾方法研究,肖进胜等人12提出的基于天空约束暗通道先验的图像去雾以及杨红等人13提出的基于暗通道的遥感图像云检测算法,等等.Fattal14基于对41湖南大学学报(自然科学版)2023 年图像块在RGB颜色通道中通常呈现的一维分布,提出了一种色线法.虽然传统算法在去雾方面取得了不错的效果,但还是存在局限性较大、鲁棒性较差的问题.Cai等人15提出去雾模型 DehazeNet,首次利用卷积神经网络实现图像去雾算法.Zhang等人16提出利用深层网络结构估计大气散射模型中的传输图以及大气光值,进而得到无雾图像.Ren等人17提出了采用多尺度卷积神经网络的去雾算法(MSCNN),可以通过不同尺度的特征融合,提高去雾后图像的质量.Yu等人18提出的基于马尔可夫判别器的图像去雾算法,可以通过在判别器中对比有雾图像和去雾图像的局部一致性,提高整体一致性.Qu等人19提出了增强的Pix2Pix模型,该模型之前广泛应用于图像风格迁移领域,该方法采用了一个带有增强器模块的GAN,以获得更有质量的生成图像,同时减少模型复杂度.近年来,基于学习的方法在图像去雾领域取得了重大的发展,本文算法实现的是一种基于学习的端到端去雾,网络模型直接生成去雾图像而省去了预测透射图和大气光值的步骤,并且提高了去雾后图像的质量.2 本文模型2.1 生成器算法生成器结构如图1所示,由双层UNet3+网络模块以及融合自注意力机制20多尺度金字塔特征融合模块组成,下面介绍不同模块细节.2.1.1 双层UNet3+网络模块模块由两个级联的UNet3+网络单元组成,上一个网络单元的输出作为下一个网络单元的输入.两个UNet3+网络单元的输出合并起来提供一个320个通道的特征图,下面的公式(1)、公式(2)描述该模块的工作方式:I1=UNet1(Ihaze)(1)I2=UNet2(I1)(2)式中:I1、I2分别为第1、2个UNet单元的输出;Ihaze为输入的YCbCr空间雾霾图像.整个模块的输出为I,可描述为公式(3)