分享
基于多尺度梯度的轻量级生成对抗网络_孙红.pdf
下载文档

ID:2516119

大小:274.74KB

页数:7页

格式:PDF

时间:2023-06-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 尺度 梯度 轻量级 生成 对抗 网络
2023 年第 36 卷第 7 期Electronic Sci.Tech./Jul.15,2023https:/收稿日期:2022-01-10基金项目:国家自然科学基金(61472256,61170277,61703277)NationalNaturalScienceFoundationofChina(61472256,61170277,61703277)作者简介:孙红(1964 ),女,博士,副教授。研究方向:模式识别与智能系统、大数据与云计算、控制科学与工程。赵迎志(1996 ),男,硕士研究生。研究方向:图像生成、图像超分辨率重建。基于多尺度梯度的轻量级生成对抗网络孙红,赵迎志(上海理工大学 光电信息与计算机工程学院,上海 200093)摘要随着生成对抗网络研究的推进,网络模型的计算量急剧增加,其自身的训练不稳定问题依然存在,生成图像的质量也有待提升。为解决以上问题,文中提出一种轻量级生成对抗网络模型,引入多尺度梯度结构解决训练不稳定的问题。通过融合自注意力机制和动态卷积的思想,利用循环模块和图像增强模块,在保持较少参数的前提下提高模型的学习能力。对文中所提算法进行验证,实验结果表明该算法在 CelebA 数据集上的 IS(Inception Score)值为 2 75,FID(Frchet Inception Distance)值为 70 1,在 LSUN 数据集上的 IS 值为 2 61,FID 值为 73 2,相比 SAGAN、DCGAN 等经典模型性有所提高,验证了该算法可行性和性能。关键词多尺度梯度;动态卷积;循环块;半注意力机制;注意力稀疏化;卷积网络;深度学习;图像生成;生成对抗网络中图分类号TP391文献标识码A文章编号1007 7820(2023)07 032 07doi:10.16180/ki.issn1007 7820.2023.07.005Lightweight Generative Adversarial Networks Based on Multi Scale GradientSUN Hong,ZHAO Yingzhi(School of Optical Electrical and Computer Engineering,University of Shanghai for Scienceand Technology,Shanghai 200093,China)AbstractWith the advancement of generative adversarial network research,the computational amount of thenetwork model increases sharply,its own training instability still exists,and the quality of the generated image alsoneeds to be improved To solve the problems,a lightweight generative adversarial network is proposed,which intro-duces multi scale gradient structure to solve the problem of unstable training By combining the ideas of self atten-tion mechanism and dynamic convolution,the cyclic module and image enhancement module are used to improve thelearning ability of the model under the premise of keeping fewer parameters The verification experimental resultsshow that the inception score is 275 and the FID is 70 1 on CelebA data set,the inception score is 2 61 and theFID is 73 2 on LUSN data set,which is better than that of the classical models such as SAGAN and DCGAN,andverifies the feasibility and performance of the proposed algorithmKeywordsmulti scale gradient;dynamic convolution;cyclic block;half attention mechanism;sparse atten-tion;convolutional neural networks;deep learning;image generation;generative adversarial net样本生成模型通过学习样本的概率分布生成图像、文本、声音等数据,可应用于图像修复、风格迁移、超分辨率重建以及语义分割等诸多领域1。获得样本的主要方法有自回归模型、变分自编码器以及生成对抗网络。自回归模型拥有较好的生成图像效果,训练过程稳定,但较缓慢。变分自编码器的模型比较简单、容易训练,但生成图像较为模糊。生成对抗网络由生成器和判别器组成2,综合效果较好。文献 3首次提出 GAN(Generative AdversarialNetwork),在图像生成领域取得了较好效果。文献 4提出了 DCGAN(Deep Convolutional Generative Adver-sarial Network),将卷积网络与生成对抗网络相结合,相较于 GAN 其提升了生成图像的效果。文献 5证明了 GAN 训练不稳定的根源在于损失函数,于是提出WGAN(Wasserstein Generative Adversarial Network),使用 Wasserstein 距离替代原来的 JS(Jensen Shannon)散度。但由于 WGAN 中的 Lipschitz 连续性条件,并没有取得良好的效果。文献 6 设计了 PGGAN(Progres-sive growing of Generative Adversarial Network),使用渐进式网络提高模型的稳定性,但其在生成高分辨率图像的同时也增加了计算量。文献 7 提出了 CycleGAN23孙红,等:基于多尺度梯度的轻量级生成对抗网络Electronic Science and Technologyhttps:/(Cycle Consistent Adversarial Networks),通过将两个GAN 构成一个环,实现图像风格转换。文献 8提出了 SAGAN(Self Attention Generative Adversarial Net-work),将注意力机制引入 GAN,提升了生成图像的细节效果,但自注意力机制也增加了模型的计算量,且SAGAN 对模型的稳定性问题未采取相应措施。文献 9 提出了 BigGAN(Large Scale Generative AdversarialNetwork),它的 Batchsize 达到 2 048,网络的参数为 16亿,提高了生成图像的质量。文献 10设计的 Style-GAN(Style Based Generative Adversarial Network)实现了对生成图像的样式控制。文献 11考虑到判别器和生成器的训练不同步,人为干预降低判别器效果,避免因判别器训练效果良好引发的梯度爆炸,但该方法效果一般,且需要人为干预,增加了模型的不稳定型。文献 12 提出 eGAN(esidual Generative Adver-sarial Network),在模型中引入残差结构,既提取了丰富的图像特征,也提取到了其它的冗余信息。文献 13 提出 MSG GAN(Multi Scale Gradients for Gen-erative Adversarial Network),采用多尺度梯度提高模型稳定性,但未采取相应措施进行图像增强,导致生成图像的细节效果不佳。综上所述,大多数现有研究通过增加模型规模提升图像质量,GAN 稳定性问题较少被涉及,图像质量有待提高。为解决以上问题,本文提出 MSAGAN(Multi Scale Gradients and Self Attention GenerativeAdversarial Net),其以 DCGAN 作为模板,使用多尺度梯度构建模型的残差结构,并增加了循环块和图像增强块,在提高网络稳定性的同时增强了图像的细节效果。1本文方法1 1总体框架为了减少参数量,MSAGAN 以 DCGAN 作为基础框架,具体结构如图 1 所示。该模型将多尺度梯度13 应用于 DCGAN,中间特征每经过两个反卷积进行一次跳跃连接以实现多尺度梯度。在生成器方面,本文使用反卷积代替全连接进行图像上采样,减少了模型计算量,反卷积使用 4 4 的卷积核,padding 设置为 2,步长设置为 1。为了提升模型的学习效果并优化生成图像的细节,嵌入循环块和图像增强块以便学习图像的深层特征。判别器结构与DCGAN 的判别器基本相同,对此本文不再赘述。图 1 总体框架Figure 1 Overall framework1 2循环块在控制模型参数量的前提下增加训练效果,向模型中加入循环块14,结构如图 2 所示,主要包括卷积层、批归一化以及 eLU 激活函数。输入 Finputn和 Foutputn1分别代表本次训练的输入以及上次训练的输出,对它们进行融合之后输入循环块,输出 Foutputn作为下次训练的输入。具体计算方法如式(1)所示。Foutputn=fFinputn+Foutputn()1(1)式中,f代表卷积操作;Finputn和Foutputn1的含义和上文相同;Foutputn为本次循环块的输出。图 2 循环块Figure 2 Cyclic block1 3图像增强模块为提高生成图像的细节效果,MSAGAN 在生成器中添加了一个图像增强块,结构如图 3 所示,使用3 3的卷积对特征进行预处理,设计半注意力机制改善图像的细节效果在减少注意力机制计算量的同时提升了33Electronic Science and Technology孙红,等:基于多尺度梯度的轻量级生成对抗网络https:/自注意力机制的效果。考虑到注意力机制通常拥有较大的计算量,本文对注意力机制进行稀疏化,设计动态融合机制,增加模型的表达能力。图 3 图像增强块Figure 3 Image enhancement block1 4半注意力机制半自注意力机制的结构如图 4 所示,A 的大小为C/2 H W(C 为通道数;H 为图像高度;W 为图像宽度),它主要包含注意力映射图 S 和结果 E。图 4 半自注意力机制Figure 4 Half self attention mechanism为求解结果E,对A进行1 1的卷积操作得到D,这次通道数仍然为 C/2。当 D 再经过 reshape 操作后,尺寸变为 C/2 N(N=H W)。结合之前求出的 S 计算最终结果 E,假设 Ej代表 j 位置的最终结果值,则它的计算如式(2)所示。Ej=Ni=1SijD()i+Aj(2)式中,Ni=1SijD()i是使用所有位置对 j 位置的影响因子乘以对应位置的值再进行求和;为变换尺度;Aj为偏移量,只需将 E 和原来的一半特征进行合并得到最终结果。1 5注意力稀疏化考虑到自注意力机制较大的计算量,本文对其进行稀疏化。图像数据和较近的数据关联程度大,和较远的数据关联程度小,因此采取下文的稀疏

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开