分享
基于生成对抗网络的图像场景转换_罗嗣卿.pdf
下载文档

ID:2372496

大小:2.12MB

页数:9页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 生成 对抗 网络 图像 场景 转换 罗嗣卿
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程基于生成对抗网络的图像场景转换罗嗣卿,陈慧(东北林业大学 信息与计算机工程学院,哈尔滨 150040)摘要:由于时间、地点、摄影设备等因素的限制,导致在真实世界中很难获得内容相同而场景不同的图像,一种可行方式是利用生成对抗网络(GAN)在没有成对数据集的情况下对图片中的场景进行转换,但是已有基于 GAN 的图像场景转换方法主要关注单个类别、单向、结构简单的场景。为了解决具有丰富类别和高度复杂语义结构的图像场景转换问题,提出一种基于 GAN 的图像场景转换模型,以实现晴天、雨天、雾天等不同场景之间的转换。将GAN、注意力模块和场景分割模块相结合,使模型正确识别并转换感兴趣区域同时保持其他区域不变。为了进一步提高输出的多样性,提出一种新型的正则化损失来抑制潜在噪声。此外,为了避免因缺乏噪声约束而出现的模态崩溃问题,在鉴别器中嵌入噪声分离模块。实验结果表明,相较 CycleGAN、UNIT、MUNIT、NICE-GAN 等 6种对比模型,该模型所生成图像的 FID 得分和 KID 得分平均分别提高约 7.25%和 19%,其能够在不同场景下生成视觉效果更佳的图像。关键词:图像处理;图像转换;生成对抗网络;场景转换;注意力机制开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(4):217-225.英文引用格式:LUO S Q,CHEN H.Image-scene transformation based on generative adversarial networks J.Computer Engineering,2023,49(4):217-225.Image-Scene Transformation Based on Generative Adversarial NetworksLUO Siqing,CHEN Hui(College of Information and Computer Engineering,Northeast Forestry University,Harbin 150040,China)【Abstract】Due to the limitations of time,place,photographic equipment,and other factors,it is difficult to obtain images with the same content but different scenes in the real world.One feasible way is to use Generative Adversarial Networks(GAN)to convert the scenes in the images without a pair of data sets.However,the existing GAN-based image-scene transformation approaches mainly focus on single-category,one-way,and simple-structure scene transformation.To achieve effective scene transformation with rich categories and highly complex semantic structure,a GAN-based image-scene transformation model is proposed in this study to realize the transformation between different scenes such as sunny,rainy,and foggy days.The combination of GAN,attention module,and scene-segmentation module enables the proposed model to accurately recognize and transform Regions of Interest(ROI)while keeping other regions unchanged.To further improve the diversity of output,this paper proposes a new regularization loss that helps in suppressing potential noise.In addition,a noise-separation module is embedded in the discriminator to avoid modal collapse due to lack of noise constraints.The experimental results show that the proposed model achieves 7.25%and 19%higher Frchet Inception Distance(FID)score and Kernel Inception Distance(KID)score,respectively,compared with the six contrast models(for example,CycleGAN,UNIT,MUNIT,and NICE-GAN).Furthermore,the proposed model can generate images with improved visual effects in different scenes.【Key words】image processing;image transformation;Generative Adversarial Networks(GAN);scene transformation;attention mechanismDOI:10.19678/j.issn.1000-3428.00660770概述 近年来,学习两个视觉域之间映射关系的图像转换研究取得了较大的进展,而图像场景转换是一项典型的图像转换任务,其目标是将一张图片中的场景从一个域转换到另一个域,如文献 1 将城市道基金项目:国家自然科学基金(62202092)。作者简介:罗嗣卿(1964),男,副教授、博士,主研方向为图像处理、机器学习;陈 慧,硕士研究生。收稿日期:2022-10-24 修回日期:2022-12-19 Email:图形图像处理文章编号:1000-3428(2023)04-0217-09 文献标志码:A 中图分类号:TP3112023年 4月 15日Computer Engineering 计算机工程路图片从雾天场景转换到无雾场景,这些场景的图像拥有高度复杂的语义结构和丰富的类别,很少有方法能够高效处理多类别的场景转换任务。目前,关于图像场景转换的研究主要集中在去除单个场景图像中的噪声,如去雾2和去雨3,这是一种单向图像转换,然而,这些方法仅适用于特定的场景,不能灵活地针对多种场景进行调整。另一方面,每种场景都有特定的语义特征,如天空、云和道路,因此,场景转换也是一项特殊的图像转换任务。在理想情况下,场景转换不是将图像的所有部分作为一个整体来处理以改变全局样式,而是将图像中与场景相关的区域更改为另一个类别,并保持其他无关区域不变4。然而,场景相关区域在图像中具有灵活性且没有固定的结构,即使是同一类别的场景相关区域也有明显的结构差异。因此,图像场景转换模型需要准确预测图像中场景相关区域的分布5,否则,图像中其他不相关的区域可能会被错误地更改。本文提出一种基于生成对抗网络(Generative Adversarial Networks,GAN)的图像场景转换模型,以在多个域中灵活输出不同场景下的图片。该模型将注意力机制、场景分割和编码器-解码器结构的生成对抗网络相结合,找到并转换图像场景中的感兴趣区域(Region of Interest,ROI),感兴趣区域即图像场景转换任务的关键区域,通过有效处理感兴趣区域可以使生成的图像更加真实,也能够避免在处理其他不相关区域后而导致的图像错误更改、图像失真或模糊问题。本文设计一种简单有效的风格正则化损失函数,以提高输出的多样性,同时,为了防止模态崩溃,在鉴别器中嵌入分离模块来对潜在噪声进行约束。1相关工作 1.1生成对抗网络受博弈思想的启发,GAN 模型一般由生成器 G和鉴别器 D 组成,如图 1 所示。将通过噪声采样得到的随机向量z和真实图片共同输入生成器 G中,生成器输出生成图片,将生成图片和真实图片输入鉴别器中,鉴别器判断输入的图片是真实图片还是合成图片,经过这样反复的对抗训练,最终生成器和鉴别器会达到纳什均衡状态6。当GAN模型达到纳什均衡状态时,说明生成器G合成的图片分布已经无限逼近真实图片的分布,基于这样的思想可以推导出 GAN的目标函数如下:minGmaxDV(G,D)=minGmaxDExPdatelogaD(x)+EzPzloga(1-D(G(z)(1)其中:V(G,D)是一个二分类的交叉熵函数;xPdata代表x服从于真实图片分布Pdata;zPz代表随机向量z服从某一分布Pz,zPz满足标准正态分布;E(*)为期望值。1.2注意力机制在人类注意力机制理论7的激励下,注意力机制已被成功引入到计算机视觉和自然语言处理任务中,如图像分类、图像字幕、视觉问答、图像生成等。该机制允许模型根据需要将注意力集中在图像最相关的部分或特征上,而不是将整个图像或序列压缩成静态表示。文献 8 提出一种循环网络模型,该模型能够通过自适应选择一系列区域或位置来从图像或视频中提取信息,并仅对所选区域进行高分辨率处理。文献 9 提出一个注意力模型,在预测机器转换目标词时对源句中输入词的重要性进行软加权。随后,文献 10-11 分别将注意力模型用于图像字幕和视频字幕,该模型通过自动学习将目光固定在显著的对象上,同时在输出序列中生成相应的单词。在视觉问答中,文献 12 使用问题来选择图像的相关区域从而计算答案。在图像生成方面:文献 13提出一种将注意力机制与顺序变分自动编码框架相结合的生成网络,该生成器处理由地表真实图像引导的输入图像的较小区域,并每次为图像生成几个像素;文献 14 提出一个新的端到端单幅图像去雨网络,通过构建一个由多尺度扩张卷积聚合、长短时间记忆网络和双注意力残差网络组成的基础模块,从浅层块到深层块逐步计算雨痕特征的残差信息。2图像场景转换模型 2.1模型结构本文的目的是探索一种统一的模型,在不影响其他无关区域的情况下,将图像中感兴趣区域转换为另一类型的场景,该模型可以实现图像到图像的场景转换。本文模型由 5 个部分组成,分别为编码器-解码器模块、场景分割模块、注意力模块、风格注入模块和鉴别器,如图 2 所示。首先将源图像xa分别输入到编码器Genc、场景分割模块Gseg以及注意力模块Gatt中,在第一分支中,编码器会提取源图像的潜码z,然后风格注入模块中的多层感知层(Multi-Layer Perceptron,MLP)将目标域标签b和风格码Sb合并,并利用风格注入模块中的自适应实例标准化图 1生成对抗网络结构Fig.1Structure of the generative adversarial networks218第 49卷 第 4期罗嗣卿,陈慧:基于生成对抗网络的图像场景转换(Adaptive Instance Normalization,AdaIN)15将风格噪声注入到潜码z中,这里的风格码是通过模拟正态分布随机采样的噪声而得到的。最后,使用解码器解码得到中间生成图像xb。编码器、解码器和风格注入模块

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开