分享
基于多重注意力机制的自然图像抠图_林荣.pdf
下载文档

ID:2515528

大小:336.15KB

页数:3页

格式:PDF

时间:2023-06-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 多重 注意力 机制 自然 图像 林荣
2023.4电脑编程技巧与维护1概述抠图是一种技术,它通过精确估计图像中的不透明度来提取出有趣的前景。这种技术可以用来处理图像中的细节,例如,毛发和透明物体。抠图技术的数学基础模型是Porter及Duff1提出的图像生成模型,如公式(1)所示:Ii=iFi+(1-i)Bii0,1(1)在抠图的问题中,仅仅给出一幅图片I,需要计算出前景图像F、背景图像B及不透明度,它与图像合成的求解过程相反。图像抠图的工作目标是为图像中每一个像素预测一个范围为01的不透明度。因为F、B、I每个像素点都由3个颜色通道组成,所以图像抠图就包含7个未知数和3个方程,这是一个病态问题。为了解决这样的计算难题,许多抠图方法采用三分图来预先标记用户指定的前景和背景部分。三分图由确定的前景区域、确定的背景区域和过度区域3个部分组成。抠图算法在这里主要的工作是估计出过度区域中像素的不透明度。自然图像抠图被广泛应用在计算机视觉任务中,例如,人工智能(AI)换脸、电影特效、虚拟现实等。2相关工作通过颜色采样的抠图方法、通过传播的抠图方法及二者结合的方法都属于传统的图像抠图方法。通过采样的抠图方法基于图像的连续性和局部相似性,假设估计未知点所需的前景F和背景B都可以在已知区域中采样得到,例如,Knockout2、Bayesian Matting3、RobustMatting4、Shared Matting5。通过传播的抠图借鉴了场论的思想,把图像看作一个场,每个点都与邻域相关。每个未知点的计算都不是孤立的,而是通过对邻域像素(几何空 间 领域或者颜色空间邻域等)进行一定 关系的计算得到不透明度,例如,Closed Form6、Learning Based7、Large Kernel Matting8、KNN9。传统的抠图方法仅提取图像形状、颜色和纹理等浅层信息。近年来,基于深度学习的方法在各行各业都取得了显著的成就,在自然图像抠图领域也有突破性发展,神经网络具备更好的深层次语义信息提取能力,能够较好地根据图像低层次外观空间信息,对网络同层级的特征信息进行迭代复用。Xu等10提出了一种两阶段的模型,将图像输入模型中,经过神经网络的训练,便可估计出图,同时还制作了自然图像抠图领域第一个较大规模的数据集。3方法3.1方法概述网络模型由生成器和判别器两个部分组成。生成器的作用是生成图,通过训练不断生成无限接近真实图像的伪图,生成器越好,得到的抠图结果越精确;判别器的作用是判断伪图和真实图,哪个为假,哪个为真。提出的模型基于改进的UNet模型作为生成器,利用生成对抗模型来实现自然图像抠图。判别网络采用PatchGAN11,输入一张三通道的图像到判别网络中,判别器能够分辨出这张图像是真实图还是伪图。3.2改进的 UNetUNet模型能够同时 学 习 深 层 特 征 和 浅 层 特 征,因为编码器中的浅层特征通过跳跃连接可以直接与解码器中的深层特征拼接在一起。该网络主要有两个特点,即U型对称结构和跳跃连接结构。对于抠图问题,浅层特征的保留对预测图中的纹理信息有很大的影响,基于UNet模型搭建生成网络,对其作者简介:林荣(1998),女,硕士,研究方向为数字图像处理、自然图像抠图。基于多重注意力机制的自然图像抠图林荣(三峡大学计算机与信息学院,湖北 宜宾443002)摘要:深度学习在图像抠图中发挥着重要作用,但是它容易丢失一些低级语义信息。在此使用 U-Net结构搭建生成网络,并在跳跃连接过程中添加瓶颈注意力模块(BAM),能够有效地融合图像的深层特征和浅层特征。同时在编码器与解码器之间添加一个空洞空间金字塔池化模块(ASPP),拓宽感受野,以多个比例捕捉图像的上下文信息。实验结果表明,相比传统的抠图算法,自然图像抠图提取了更多的细节纹理信息,提高了抠图的精度。关键词:自然图像抠图;生成对抗模型;语义信息;注意力机制144DOI:10.16184/prg.2023.04.0102023.4电脑编程技巧与维护进行改进的地方主要有两点:(1)在每1层的跳跃链接之间添加BAM;(2)在UNet模型的编码器之后新增ASPP。BAM能够有效提高网络的表征能力。ASPP能够扩宽感受野,以多个比例捕捉图像的上下文信息。图像的特征是很复杂的,某些特征在一种尺度中不容易被提取,而在另外的尺度中就可能很容易被提取;或者某些特征是无效特征,会干扰结果精度,这些特征在一种尺度下会被提取,而在另外的尺度下则会被丢弃。ASPP能以多个比例捕捉图像的上下文信息,是DeepLab系列网络的核心,可以显著提高基于分割任务的性能。虽然ASPP参数量大,计算开销也大,但是在抠图模型中的效果非常好。使用的ASPP由一个卷积层、一个平均池化层和3个空洞卷积层组成。其中,空洞卷积的核心是设置适当的空洞率,将空洞率设置为6、12、18。通过设置不同的空洞率对特征图进行重采样,能够有效还原图像细节信息。BAM可以看作空间注意力机制与通道注意力机制的并联。通过添加BAM来提高抠图模型深度学习的性能。实验结果表明,BAM提高了生成网络的准确性,使损失函数加速收敛,缩短了训练周期。4损失函数4.1生成器损失函数提出的生成器使用预测损失和对抗损失加权融合的方法,如公式(2)所示:LG=1L+2Lad(2)其中,LG为文中的生成器损失;1取1;L为预测损失;Lad为对抗损失;2取0.001。预测损失表示在每个像素点处的预测数值与实际数值相减的绝对值,如公式(3)所示:(3)其中,ip为像素点i上的预测值;ig为像素点i上的真实值;取10-6。对抗损失理论综合解析了生成器与判定器的对抗机理,并指导生成器迅速掌握真实图像的纹理等特性。将生成器所预测的图像输入判定器,由判别器获得一个结果矩阵,由这个结果矩阵和全一矩阵张量求均方误差值。如公式(4)所示:(4)其中,G为指生成器的预测结果;D为指判别器的判别结果;Ione为全1矩阵张量。4.2判别器损失函数伪图、相应的前景图像F及背景图像B根据公式(1)生成一张假图像。真实图、相应的前景图像F和背景图像B根据公式(1)生成一张真图像。当将真伪图像输入判别器中时,判定器就可以将伪图像判断为伪,将真图像判断为真。通过使用全零矩阵张量与伪图的输出矩阵计算均方误差,并且使用全一矩阵张量与真图的输出矩阵计算均方误差,将损失函数确定如公式(5)所示:(5)其中,G为指生成器的预测结果;D为指判别器的判别结果;Ione为全1矩阵张量;Zone为全0矩阵。5实验与分析5.1实验环境与训练细节使用的深入学习框架为PyTorch,并通过Python语言进行训练和测试,操作系统为Ubuntu 18.04.6,Cuda11.6,显存为24 GB,显示器配置为GeForce RTX 3070。5.2训练数据集Xu10等制作了431张前景图及相应的精确图,不过仅仅431张训练集还远远无法训练神经网络,所以必须对数据加以扩充。针对每个前景图,首先,随机选择了COCO数据集的前100张图片作为背景图;其次,将它与前景图及相应的图按照公式(1)的原理合成;最后,进行预处理即可得到总共43 100张图片的数据集,同时可以通过缩放、翻转等方式增加图像的多样性,并确定输入大小为320320。根据一定的比例分为34 480张训练集、8 620张验证集和1 000张测试集。5.3实验结果与分析在1 000张测试集中随机选择一张进行结果展示,如图1所示,从左至右依次为原始图像、trimap、DIM10抠图结果、AlphaGAN11抠图结果、抠图和实际图。第1排框选的区域放大后的效果对应在第2排,可以看到DIM10抠图效果比较模糊,AlphaGAN将部分背景处理成前景,明显看出自然图像抠图方法更加接近真实结果。3种算法的表现不尽相同,但通过对比自然图像抠图方法的效果最好,能够准确地划分出一些细节信息。图1结果比较(e)抠图(f)实际图(a)原始图像(b)trimap(c)DIM(d)AlphaGAN1452023.4电脑编程技巧与维护网智能综合管控平台在煤矿智能化中的应用J.内蒙古煤炭经济,2021(9):146-148.6黄倩,李育喜.基于云计算的高等职业院校数字化校园建设方案研究J.电脑知识与技术:学术版,2020,16(23):137.7林王兵,王巍,谭立兴,等.基于虚拟化技术的实验室平台的设计与研究J.黑龙江科技信息,2020(31):77-79.8胡钟月.基于云计算虚拟化技术的智慧船舶自动化信息服务平台设计J.舰船科学技术,2021,43(22):151-153.6结语针对深层网络容易丢失部分低级语义信息的问题,提出了一种改进的UNet模型作为生成器。实验结果表明,相比传统的抠图算法,无论在视觉方面还是在准确性方面,其现实图结果都有较大的提高,验证了自然图像抠图方法的有效性。但文中主要工作集中在编码解码器网络中,未来,会对抠图网络模型作进一步的探索,同时也会积极探索与研究判别器网络结构,进一步提高抠图效果。参考文献1PORTER T,DUFF T.Compositing digital images A.The 11th Annual Conference on Computer Graphicsand Interactive Techniques C.1984:253-259.2BERMAN A,DADOURIAN A,VLAHOS P.Method forremoving from an image the background surrounding aselected object P.U.S.:Patent 6,134,346.2000-10-17.3CHUANG Y Y,CURLESS B,SALESIN D H,et al.Abayesian approach to digital matting A.IEEE Com-puter Society Conference on Computer Vision andPattern Recognition C.Kauai,HI,USA:IEEE,2001:II-II.4WANG J,COHEN M F.Optimized color sampling forrobust matting A.IEEE Conference on ComputerVision and Pattern Recognition C.Minneapolis,MN,USA:IEEE,2007:1-8.5GASTAL E S L,OLIVEIRA M M.Shared sampling forreal-time alpha matting A.Computer Graphics Fo-rum C.Oxford,UK:Blackwell Publishing Ltd,2010,29(2):575-584.6LEVIN A,LISCHINSKI D,WEISS Y.A closed-formsolution to natural image matting J.IEEE transac-tions on pattern analysis and machine intelligence,2007,30(2):228-242.7ZHENG Y,KAMBHAMETTU C.Learning based digi-tal matting A.IEEE 12th international conferenceon computer vision C.Kyoto,Japan:IEEE,2009:889-896.8HE K,SUN J,TANG X.Fast matting using large ker-nel matting laplacian matrices A.IEEE ComputerSociety Conference on Computer Vision and PatternRecognition C.San Francisco,CA,USA:IEEE,2010:2165-2172.

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开