温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合
尺度
梯度
特征
素描
照片
合成
江水
1相关工作人脸素描照片合成是指将人脸素描图像转换为人脸照片图像。异质图像变换是指将不同域中的图像进行相互转换,例如人脸素描和照片图像之间的转换1、高低分辨率人脸图像之间的转换2等。人脸素描照片合成是异质图像变换的重要分支,近年来受到广泛关注。在执法和刑事案件中,嫌疑人的照片在实际中通常很难获得,最好的替代方法是根据目击者回忆画一幅素描。直接将素描图与疑犯照片数据库进行匹配是一项困难的工作,因为两者之间存在着巨大的纹理差异。因此一种能从素描草图中生成照片的人脸照片合成方法是非常必要的。目前人脸素描照片合成方法主要分为三大类:基于范例的人脸素描照片合成方法,基于回归的人脸素描照片合成方法和基于范例与回归结合的人脸素描照片合成方法。1.1基于范例的人脸素描照片合成方法该方法主要是通过近邻选择和权重计算,利用训练集中的样本图像或图像补丁块直接重建目标图像。根据求解组合权重的方法不同可以将它分为三类:子空间学习框架、基于稀疏表示的方法和贝叶斯推理框架。文献3通过假设人脸照片和人脸素描图像之间的线性变换,开创了基于范例的人脸素描合成;文献4通过使用稀疏编码构建一个包含人脸照片和素描图像块的耦合字典,将稀疏表示应用于人脸素描合成。1.2基于回归的人脸素描照片合成方法该方法是通过学习训练源图像域图像与目标图像域图像之间的映射关系,将源图像域和目标图像域之间的映射定义为一个回归问题。根据映射关系可以将它分为两类:线性回归框架和深度学习框架。全卷积神经网络(FCN,Fully ConvolutionalNetworks)应用于人脸素描照片合成等跨域图像合成任务,文献5基于FCN提出了一种端到端的素描生成模型。1.3基于范例与回归结合的人脸素描照片合成方法有部分研究者结合了上述两种方法的优势,将基于范例的方法与基于回归的方法相结合,从而进一步提高合成图像的质量。文献6提出一种反向投影法对生成对抗网络生成的人脸素描图像进行后处理;文献7提出了一种从两阶段的素描人脸合成方法。2研究方法2.1网络整体结构本文提出了一种融合多尺度梯度特征的人脸素描照片合成网络框架,如图1所示。该网络框架总共由四个模块组成:生成器模块、伪人脸照片特征生成器模块、多尺度梯度模块以及判别器模块。生成器模块用于为每个输入人脸素描图像x生成一张人脸照片y。由于在深度卷积神经网络训练过程中会导致某些信息和特征细节的丢失,因此生成器模块采用带有跳跃连接的U-Net网络作为主干网络,将降采样和上采样过程中相应分辨率的特征进行拼接,以保留更多的位置信息。伪人脸照片特征生成器模块通过块匹配方法为每个输入素描图像构造一个伪人脸融合多尺度梯度特征的人脸素描照片合成江水涛1,2万旺根1,2张振3孙学涛2王旭智1,2(1上海大学通信与信息工程学院,上海200444;2上海大学智慧城市研究院,上海200444;3上海交通大学医学院附属仁济医院宝山分院,上海200444)Face Sketch-photo Synthesis Based on Multi-scale Gradient Features摘要:人脸素描照片合成是异质图像变换重要分支,近年来受到广泛关注,在数字娱乐和执法领域都得到了广泛应用。近几年基于生成对抗网络的方法在图像跨域转换方面取得了较大的进步,但合成图像会产生噪声、伪影等问题。以U-Net网络为基础,提出了一种融合多尺度梯度特征的人脸素描照片合成方法,该方法结合了MSG-GAN的思想:允许判别器不仅使用生成器最终输出的梯度,而且还使用从上采样中间层输出的不同分辨率的梯度。同时在U-Net网络中加入了残差学习单元,来缓解深度神经网络训练过程中产生的梯度消失和梯度爆炸的问题。此外还加入了基于MRF-CNN的伪人脸特征生成器,采用块匹配的方法来生成伪人脸图像用于监督生成器的人脸生成。最后在CUFS和CUFSF数据集上的实验结果表明所提出方法的有效性。关键词:多尺度梯度特征;残差单元;U-Net;人脸素描照片合成;CUFS;CUFSFAbstract:Face sketch-photo synthesis is an important branch of heterogeneous image transformation.It has beenwidely used in digital entertainment and law enforcement in recent years.In recent years,the methods based on generativeadversarial network have made great progress in image cross-domain transformation,but the synthetic image will producenoise,artifact.Therefore,based on U-Net network,this paper proposes a face sketch-photo synthesis method that inte-grates multi-scale gradient features.This method combines the idea of MSG-GAN:it allows the discriminator to use notonly the gradient output of the generator,but also the gradient output of different resolutions from the upper sampling mid-dle layer.At the same time,the residual learning unit is added to the U-Net network to alleviate the problems of gradientdisappearance and gradient explosion in the training process of deep neural network.In addition,the pseudo face featuregenerator based on MRF-CNN is added,which uses the block matching method to generate the pseudo face image,which is used to supervise the face generation of the generator.Finally,the experimental results on CUFS and CUFSFdatasets show the effectiveness of the proposed method.Keywords:multiscale gradient features,residual unit,U-Net,face sketch-photos synthesis,CUFS,CUFSF融合多尺度梯度特征的人脸素描照片合成92工业控制计算机2023年第36卷第2期表2CUFS数据集上测试结果照片特征,以监督y的合成。多尺度梯度模块遵循MSG-GAN8的思想,允许判别器不仅使用生成器最终输出的梯度,而且还使用从上采样中间层输出的不同分辨率的梯度。判别器将多尺度输出的判断反馈给生成器,以改善真实分布与生成分布的重叠。生成器模块用于最小化生成人脸照片与真实人脸照片之间的差距,使得生成器生成的人脸照片达到更加逼真的效果。图1融合多尺度梯度特征的人脸素描照片合成模型结构示意图2.2带有残差单元的U-Net网络U-Net网络是一种带跳跃连接的U型网络结构。U-Net集成了高级语义信息和浅层位置信息。U-Net网络由编码和解码两个模块组成,编码模块保存每次降采样后的特征图用于后续的跳跃连接;解码模块在每次上采样之前与编码模块中相同分辨率的特征图进行串联。为了缓解深度网络中产生的梯度消失和梯度爆炸问题,本文在U-Net网络中加入了残差单元模块,该残差单元包含六个残差块,如图2所示。残差学习单元可以充分利用低频信息和输入图像的非低频信息,从而大大增强了特征之间相关性的学习能力。图2残差块2.3基于MRF-CNN的伪人脸照片特征生成器给定参考集R=xiR,yiRi=1N,伪人脸照片特征生成器的目的是为测试人脸素描图像构建一个伪人脸照片特征(x),用于监督人脸照片y的合成。本文通过MRF-CNN提取图像的局部块表示,首先将x输入到预训练好的VGG-19网络,并在第l层提取特征图为l(x)。因此可以得到两个特征图集l(xiR)i=1N和l(yiR)i=1N。本文将以l(x)中的点j为中心的kk的块表示为j(l(x),同样的定义也适用于j(l(xiR)和j(l(yiR)。因此对于每一个块j(l(x),其中j=1,2,m,其中m=(Hl-2k2)(Wl-2k2),Hl和Wl为l(x)的长和宽,本文在基于余弦距离的参考集中找到它的最佳匹配j(l(xiR):(i,j)=argmaxi*1Nj*1mj(l(x)j*(l(xRi*)j(l(x)2j*(l(xRi*)2(1)由于R中的素描和照片对齐,因此可以直接用(i,j)来索引相应的人脸照片特征块j(l(yiR)。最后对于输入素描图像x可以得到一个伪人脸照片特征表示集j(l(x)j=1m。2.4损失函数为了解决标准GAN生成的图片质量不高以及训练过程不稳定这两个缺陷,LSGAN9中提出将GAN的目标函数由交叉熵损失改为最小二乘损失。LGAN_G=Expsketch(x)(D(G(x)1)2(2)LGAN_D=12Eypphoto(y)(D(y)1)212Expsketch(x)(D(G(x)2(3)本文将伪人脸照片特征损失定义为:LP(x,y)5l3mj1j(l(y)j(l(x)22(4)其中l=3,4,5分别指relu3_1、relu4_1和relu5_1层。低级特征(relu1_1和relu2_1)无法生成有效的纹理,而relu3_1之后的高级特征能更好地保留纹理,对外观变化和几何变换更具鲁棒性10。因此本文设置l=3,4,5。此外本文还引入了L1距离作为图像重建损失,这样可以保留更好的边缘信息。因此,损失函数定义为:Lrec_G=Expsketch(x)G(x)y1(5)基于上述的损失项,本文可以分别使用以下两种损失函数来训练生成器网络G和判别器网络D:LG1LGAN_G+2LP3Lrec_G(6)LD=LGAN_D(7)生成器尝试最小化LG,判别器尝试最大化LD。1、2和3分别表示每个损失函数项的权重系数。3实验结果与分析3.1数据集实验是在香港中文大学(CUHK)人脸素描数据集(CUFS)和CUHK人脸素描FERET数据集(CUFSF)上进行的。CUFS数据集包括三个数据集中的人脸照片-素描对:中大学生数据集、AR数据集和XM2VTS数据集。CUFSF数据集包含FERET数据集中的1194个目标。数据集中的每个人都有一对人脸照片-素描。表1为数据集的划分:表1数据集划分3.2评价指标本 文 主 要 采 用 了 客 观 图 像 质 量 评 价 指 标 结 构 相 似 性(SSIM)、特征相似性(FSIM)、峰值信噪比(PSNR)来评估CUFS数据集和CUFSF数据集上通过不同方法合成的人脸照片质量。SSIM用于捕捉图像的结构信息,可以测量两幅图像之间的结构失真,SSIM值越大说明两幅图像结构越相似。FSIM用于捕捉图像的特征信息,可以测量两幅图像之间的特征失真,FSIM值越大说明两幅图像特征越相似。PSNR用于捕捉两幅图像之间的像素级损失。3.3结果分析为验证本文所提出方法的有效性,本实 验在CUFS和CUFSF两个测试集上分别进行测试。表2、表3分别展示了在93(上接第91页)测J.现代电子技术,2021,44(6):1