温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合
轻量级
ViT
CNN
范围
红外
图像
分辨率
重建
沈恺涛
第 22卷 第 2期2023年 2月Vol.22 No.2Feb.2023软 件 导 刊Software Guide融合轻量级ViT与CNN的广范围红外图像超分辨率重建沈恺涛1,闵天悦2,胡德敏2(1.上海理工大学 信息化办公室;2.上海理工大学 光电信息与计算机工程学院,上海 200093)摘要:卷积神经网络的注意力机制模型重建波长范围广的红外图像时只能聚焦于局部特征、感受野小,为此提出一种适用于重建广范围红外图像的融合轻量级视觉Transformer(ViT)与卷积神经网络的模型。该模型采用改进的轻量级残差块结合轻量级ViT块构建全局自注意力机制模型,学习不同特征图区域之间的长距离注意力依赖关系以辅助重建,约束解空间,采用Huber损失函数使模型稳定收敛,通过迭代上下采样的方式挖掘高低分辨率图像对的深层变换关系。使用近红外图像和远红外图像数据集进行实验,该模型以1 031K的参数量在峰值信噪比和结构相似度比较中超越了参数量为1 518K的轻量级模型SRResNet和1 592K的CARN,接近于参数量为4 543K的重量级模型EDSR,表明该模型可以有效重建不同波长的红外图像。关键词:红外图像;轻量;视觉Transformer;超分辨率;自注意力DOI:10.11907/rjdk.221167开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP183 文献标识码:A文章编号:1672-7800(2023)002-0021-07Wide-range Infrared Image Super-Resolution Reconstruction Integrating Lightweight ViT and CNNSHEN Kai-tao1,MIN Tian-yue2,HU De-min2(1.Information Office,University of Shanghai for Science&Technology;2.School of Optical-Electrical&Computer Engineering,University of Shanghai for Science&Technology,Shanghai 200093,China)Abstract:In order to solve the problem that the attention mechanism model of convolution neural networks(CNN)can only focus on local features and small receptive field when reconstructing infrared images with a wide wavelength range,propose a new method with lightweight ViT and CNN suitable for reconstructing infrared images with a wide range.The model used an improved lightweight residual block combined with a lightweight ViT block to build a global self-attention mechanism model,learned long-distance attention dependencies between different feature map regions to assist reconstruction and constrain the solution space.It used Huber loss function to make the model converge stably.It mined the deep transformation relationship between high and low resolution image pairs by iterative up and down sampling.Near-infrared images and far-infrared images datasets were used in the experiment,the model with 1 031K parameters surpassed the lightweight model SRResNet with 1 518K parameters and CARN with 1 592K parameters in the comparison of peak signal-to-noise ratio and structural similarity,close to the heavyweight model EDSR with a parameter amount of 4 543K,which shows that the model can effectively reconstruct infrared images with a wide wavelength range.Key Words:infrared image;lightweight;ViT;super-resolution;self-attention收稿日期:2022-02-22基金项目:国家自然科学基金项目(61170277,61472256);上海市教委科研创新重点项目(12zz137);上海市一流学科建设项目(S1201YLXK)作者简介:沈恺涛(1981-),男,硕士,上海理工大学信息化办公室工程师,研究方向为计算机视觉、深度学习;闵天悦(1997-),男,上海理工大学光电信息与计算机工程学院硕士研究生,研究方向为计算机视觉、深度学习;胡德敏(1963-),男,博士,上海理工大学光电信息与计算机工程学院副教授、硕士生导师,研究方向为计算机网络、分布式计算、云计算。本文通讯作者:闵天悦。2023 年软 件 导 刊0 引言图像超分辨率重建是指根据低分辨率图像(Low Resolution,LR)通过一定方法重新构建成为高分辨率图像(High Resolution,HR)。基于深度学习的超分辨率重建方法采用人工神经网络构建LR至HR的端到端模型,重建效果比传统的重建方法更佳。以街景路况为主的远红外图像像素分布均匀、目标物较少,需要重建的原始分辨率较低,在超分辨率模型中采用注意力机制可根据不同特征图的贡献度赋予权重以辅助重建,而更复杂的红外图像,如近红外图像细节纹理更丰富,原图尺寸较大,因此降质退化更复杂,进行超分辨率上采样时解空间更广。卷积神经网络(Convolution Neural Networks,CNN)模型的注意力机制感受野过小,难以捕捉全局像素注意力关联信息。红外图像的超分辨率重建本身受限于高分辨率纹理在退化过程中的复杂降质,可能导致生成图像模糊、缺乏细节纹理,基 于 生 成 对 抗 网 络1(Generative Adversarial Networks,GANs)的图像重建方法2可以缓解此问题,但产生的伪影无法彻底解决,导致客观评价指标偏低。图像超分辨率重建是根据现有的稀疏像素预测出密集像素的问题。例如,Dong等3将 CNN 应用于图像超分辨率重建中,并提出3层SRCNN(Super Resolution Convolutional Neural Network)模型结构;Shi等4采用亚像素卷积层进行上采样,改进了双三次插值法以及反卷积的上采样效果。此外,浅的CNN性能有限,而单纯加深模型易出现梯度消失和梯度爆炸的问题,自ResNet5和DenseNet6被提出后,许多模型采用残差连接或密集连接构建深层网络进行重建;TTSR(Texture Transformer Network for ImageSuper-Resolution)7模型采用 Transformer8的自注意力机制捕获图像不同区域的长距离相关性,虽然取得了优异的重建效果,但训练时需要大量先验参考图像。目前,通用的超分辨率方法常直接应用于红外图像的重建。例如,Choi等9将SRCNN用于红外图像的超分辨率重建,但与传统的插值方法相比峰值信噪比提升幅度有限;Du等10将RGB与红外特征图融合输入模型进行重建,但需要大量一一对应的红外与RGB图像对;Yang等11通过特征空间的相互依赖自适应调整空间区域的权重,混合使用通道和空间注意力机制,使得红外图像的重建过程中保留了更多结构信息,取得了较高的结构相似度;邵保泰等12考虑到SRGAN(Super Resolution Generative Adversarial Network)能够改善视觉效果的特性,将其应用于以街景路况为主的热红外图像重建,适应了4倍放大倍率下的细节修复,但该模型损失函数出现震荡,需要改进训练策略;邢志勇等13通过引入残差中的残差块和特征判别器减少了伪影的产生,有效改善了红外图像的重建质量。笔者先前提出的LI-SRGAN模型14虽然改进了上述方法,融合了轻量级注意力机制,在街景路况红外图像的重建上取得了较好效果,但对于波长范围广的红外图像,例如降质退化更复杂、上采样时解空间更广的近红外图像,CNN的注意力机制只能聚焦于图像局部特征,难以捕获全局注意力信息。针对上述问题,本文提出一种重建广范围红外图像的超分辨率模型LI-SRViT(Lightweight Infrared Image Super-Resolution using Vision Transformer),结合无批量归一化层的 轻 量 级 残 差 块 和 轻 量 级 视 觉 Transformer 块(Vision Transformer,ViT)构建全局自注意力机制模型,学习不同特征图区域之间的长距离注意力依赖关系以辅助重建,约束解空间;采用 Huber损失函数使模型稳定收敛;采用迭代上下采样的结构学习HR与LR图像对的深层变换关系。1 模型构建基于深度学习的超分辨率上采样重建方法得到的超分辨率图像为真实高分辨率图像IHR的近似估计ISR,超分辨率重建方法为:ISR=F(ILR)(1)=arg min L(ISR,IHR)+()(2)式中,F 为超分辨率模型,为模型参数,L 为损失函数,为惩罚系数,()为正则项。LI-SRViT模型架构如图1所示,其采用迭代上下采样结构,以学习高低分辨率图像之间的深层关系。Conv 3 33*LRBPixel Shuffle 2LRBLVitBLRBLVitBUp SampleLR ImageSR ImagePReLUDown SampleDS Conv 33SwishDS Conv 33LRBConv 3 3Pixel ShuffleConv 3 3PReLUTanhUp SamplePReLULVitBFig.1Structure of LI-SRViT图1LI-SRViT模型结构 22第 2 期沈恺涛,闵天悦,胡德敏:融合轻量级ViT与CNN的广范围红外图像超分辨率重建当前基于视觉 Transformer架构的模型虽然在许多计算机视觉任务性能上得到了提升15,但要达到类似SOTA的 CNN 模型效果需要堆叠更多 Transformer 块16,耗费大量算力资源。本文模型考虑将Transformer的自注意力机制计算融入CNN模型,并实现轻量化。该模型首先通过一个基本33卷积层进行低频特征提取,然后通过3个轻量级残差块(Lightweight Residual Block,LRB)进行残差特征提取。模型经过轻量级视觉 Transformer 块(Lightweight ViT Block,LViTB)进行全局自注意力特征计算,加强图像不同部分之间的注意力关系以辅助重建,在模型中间首先进行图像尺寸的两倍上