温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
边缘
先验
人脸去
手势
遮挡
修复
方法
研究
欧静
2023 年 6 月 10 日第 7 卷 第 11 期现代信息科技Modern Information TechnologyJun.2023 Vol.7 No.1197972023.062023.06收稿日期:2023-04-07基于边缘先验的人脸去手势遮挡修复方法研究欧静,文志诚(湖南工业大学,湖南 株洲 412007)摘 要:针对当下人脸去手势遮挡任务中常出现的结构缺失和纹理模糊等问题,文章提出一种基于边缘条件和注意力机制的两阶段修复网络EmmNet。第一阶段网络为第二阶段细节修复提供边缘指导信息,以避免出现过度平滑等问题。第二阶段网络中的并行多扩张卷积模块可在有效扩大网络感受野的同时提高对有效像素的利用率。此外,注意力模块可促使网络生成具有全局一致性,使研究者获得符合原图特征的修复图像。实验结果表明,EmmNet 在去手势遮挡任务中可以生成轮廓结构更加完整流畅,细节纹理更加清晰自然的人脸图像。关键词:卷积神经网络;生成对抗网络;人脸修复;注意力机制中图分类号:TP18;TP391.4 文献标识码:A 文章编号:2096-4706(2023)11-0097-05Research on Face Removal and Removing Gesture Occlusion Restoration Method Based on Edge PriorOU Jing,WEN Zhicheng(Hunan University of Technology,Zhuzhou 412007,China)Abstract:Aiming at the problems of lack of structure and blurred texture that often appear in the current face removing gesture occlusion task,this paper proposes a two-stage inpainting network based on edge conditions and attention mechanismEmmNet.The one-stage network provides edge guidance information for the second-stage detail restoration to avoid problems such as over-smoothing.The parallel multi-expansion convolution module in the second-stage network can effectively expand the network receptive field and improve the utilization of effective pixels.In addition,the attention module can promote global consistency in network generation,enabling researchers to obtain repaired images that match the original image features.The experimental results show that EmmNet can generate a face image with a more complete and smooth outline structure and clear and natural detail texture in the removing gesture occlusion task.Keywords:Convolutional Neural Network;Generative Adversarial Network;face restoration;attention mechanism0 引 言人脸图像去遮挡及修复作为图像修复领域的重要研究课题,具有广阔的应用空间。在安保监控领域,监控图像中的人脸信息因受帽子、口罩、手势等遮挡物影响而造成人脸识别1失败的情况屡见不鲜。通过人脸修复技术对被遮挡的人脸图像进行恢复可以有效提高人脸识别系统在处理被遮挡人脸图像时的准确率,因此,人脸修复结果更需要尊重原始图像中人脸的五官特征、肤色发色以及皮肤生长状态和纹理。这就要求所生成的人脸图像要更加贴合原图的五官结构和纹理特征,要尽可能地减少色彩误差和纹理扭曲,提高生成结果的准确度。为此,在图像生成过程中如何引入必要的先验知识或特定的假设,以帮助网络生成完整合理的人脸面部结构信息成为亟需解决的问题之一。鉴于此,本文提出一种基于边缘条件和注意力机制的人脸图像修复方法EmmNet。整体而言,EmmNet 是一个两阶段修复网络,第一阶段主要完成的任务是引入修补的边缘图像为修复任务提供先验DOI:10.19850/ki.2096-4706.2023.11.023信息以避免结构缺失以及生成图像过渡平滑的问题,第二阶段则进行细节和纹理层面的修复。在网络的设计中,我们在第二阶段增加了门控卷积以减少修复过程中无效像素对特征提取的影响。与此同时,我们使用在不同扩张率下并行工作的多扩张卷积结构来代替传统的残差卷积块,这样可以在有效扩大感受野的同时进一步提高网络对有效像素的利用率。在判别器的选择上,我们采用可在两个尺度下同时工作的马尔可夫判别器,该设计结构可以保证生成图像结构的一致性,有利于实现稳定训练。经过试验训练,EmmNet 在实现手势遮挡方面取得了较好的效果,在 PSNR、SSIM 等指标上都取得了优良的实验结果,且在不规则遮挡实验测试中也表现出优秀的修复能力。1 近期相关工作图像修复方法一般分为基于传统数学推理思想的方法和基于深度学习的方法。就修复原理而言,修复网络需要充分挖掘和利用不完整图像中显式存在的像素信息从而进一步推理丢失的图像内容2。对于生成的图像则要求语义连贯,结构完整且局部纹理信息清晰明确。传统方法在大面积修复效果上具有较大的局限性且修复结构中往往存在明显的结构缺98982023.062023.06第 11期现代信息科技失和纹理模糊等问题,因此,相较于传统修复方法,编解码器结构3和生成对抗网络4的提出为图像修复工作提供了全新的思路和方法。一方面,深度学习方法中的各种编码器解码器变体结构等建模方法可以在无监督模式下通过对高维数据进行压缩编码来提取图像中的有效特征信息,进而从海量数据库语料中不断学习以拟合训练数据集中图像数据在潜在空间中的真实分布。同时,凭借自身优秀的“泛化”能力,这些网络结构可以以此重构出与原始图像具有相似特征分布的图像数据。然而,基于自编码器变体的方法本质上是一种可以生成新样本的概率框架,但其生成的图像结果往往较为模糊,质量较低。另一方面,基于生成对抗网络思想而生的网络变体结构设计一系列损失函数,采用对抗博弈的方式对生成器和鉴别器进行联合训练,使生成器可以改写噪声分布并使其可以无限接近于目标分布。2 提出方法2.1 网络结构如图 1 所示,EmmNet 网络由两阶段组成,包括边缘生成网络和纹理生成网络。两个网络生成器的两层下采样层及两层上采样层结构一致,边缘生成网络的特征提取部分由 8个堆叠排放的残差卷积块组成,纹理生成网络的特征提取部分则由8个多扩张卷积块5和1个注意力模块堆叠排列而成。注意力模块可对经过特征提取和推理的特征图像进行进一步的特征匹配,促进生成图像的全局一致性。在鉴别器的设计上,边缘生成网络的鉴别器选用传统的谱归一化马尔可夫鉴别器。纹理生成网络则由两层鉴别器构成,第一层鉴别器在原图尺寸上进行判定,第二层鉴别器则在下采样后的输出图像上进行判定。多扩张卷积块由四个并行工作扩张率分别为(1、2、4、8)的子内核构成,四个子内核的通过数均为64。随后将来自四个子内核的输出特征在通道维度上进行拼接及特征融合,最后还需与门控值相乘,以此减轻 mask 中无效元素对特征提取过程的影响。值得注意的是,实验在确定扩张率的组合值时发现扩张率别为(1、3、6、9)的扩张卷积在处理 256256 的原始图像时输出效果略低于(1、2、4、8)。细节生成网络的鉴别器由于在两个尺度的输出图像中进行判定并传递损失值,因此可将其看作一个多任务学习过程,可由式(1)来表示:(1)2.2 注意力模块在细节纹理生成网络中具有多种扩张率融合的局部卷积核逐层处理图像特征,虽然可以在一定程度上扩大局部空间的感受野,但是对于从较远空间位置借用特征仍存在局限性。因此引入了注意力机制,在网络特征提取后引入一个新的上下文注意层对经过修复的特征图谱进行注意力计算,使之能够利用全局信息进一步帮助解码器结构提高图像的视觉质量,特别是在进行大结构和长距离纹理模式图像计算时,效果尤为明显。注意力的计算原理为从已知的背景图块中找寻与当前位置关联度较高的图像特征信息以帮助生成缺失面片。并使用归一化内积(即余弦相似度)来度量二者(可表示为 Fi和 Fj)之间的相似关系,假设 表示以(ix,iy)和(jx,jy)为中心的特征块相似性,用于计算二者之间的亲和度。随后通过矩阵乘法计算 F 的加权平均形式为。最后,将 F 和 进行拼接并应用 11卷积层保持 F 的原始通道数。计算过程如式(2)所示:(2)经实验验证,该注意力层可以放置在任何一层特征图输出层之后并对其进行匹配。然而,注意力计算量与输入特征图的尺寸关系密切且对 GPU 显存占用较大,因此本文只在编码器和特征提取的最后阶段使用注意力模块进行处理,该层的特征输出大小为 6464。我们在试验中也尝试在各解码层后对输出进行特征提取,但均发生 GPU 显存溢出的现象。2.3 损失函数设置EmmNet 网络中边缘网络的联合损失函数由平均绝对误差、特征匹配损失及对抗损失组成,如式(3)所示。纹理生成网络的联合损失函数则由平均绝对误差、风格损失、感知损失及对抗重建损失构成,如式(4)所示,其中 x表示损失函数对应的权重超参数。二进制掩码边缘信息图灰度图 扩张卷积8Real/rake感知损失 边缘生成网络多扩张卷积块8Real/rakeReal/rakeL1损失风格损失重建损失 纹理生成网络DedgDim_2Dim_1完整边缘信息待修复图像边缘生成器纹理生成器 Attentionblock输入:HWH/2W/2H/4W/4HWH/4W/4H/2W/2H/2W/2HWH/2W/2HWH/2W/2输入:图 1 整体网络结构流程图99992023.062023.06第 11期 (3)(4)其中,特征匹配损失通过对比修复结果的特征图与原图特征图之间的差异返回损失值,以此提升边缘生成的准确度。感知损失的作用原理是对于生成的图像不仅要关注像素层级上的重建效果,更要立足于图像的高层语义特征。风格损失函数计算生成图像和原图二者在预训练网络中第 i 层特征图谱对应的风格矩阵间(Gram 矩阵)的 l1 距离,并以此为依据约束生成图像的风格特征使之获得向原图靠近的效果。联合损失函数的设计既保证了生成内容的像素级精度,也在结构语义层级上给予约束。经过实验验证,超参数设置为 adv=0.1,fm=10,l1=1,perc=0.1,style=250。3 实验设置为了更有针对性地处理人脸去手势遮挡任务,我们在训练时采用了由 Voo 等人6提出的手势遮挡合成方法,用于生成符合日常生活场景下的手势遮挡效果。CelebA-HQ7数据集中包含 3104 张高清人脸图像,也是实验训练中主要使用的人脸数据,11K Hands 数据集由 Afifi等人8提出,其中包含 11 076 张取自不同性别、不同年龄采集者的正反面手部照片,该数据集也是本文实验中的主要遮挡来源。在测试网络性能时我们进一步采用了由 Liu 等人9贡献的不规则掩码数据集。该数据集中包含 1.2104 张不规则掩码图像,其掩码区域占比从 10%扩大到 60%,以 10