基于
扰动
图像
分类
对抗性
攻击
方法
高瑞均
SCIENTIA SINICA Informationis中国科学:信息科学2023年第53卷第2期:309324c 2023中国科学 杂志社论文基于雾扰动的图像分类对抗性攻击方法高瑞均1,2,郭青1,3,余洪凯4,冯伟1,2*1.天津大学智能与计算学部,天津 300350,中国2.国家文物局文物本体表面监测与分析研究重点科研基地,天津 300350,中国3.School of Computer Science and Engineering,Nanyang Technological University,Singapore 639798,Singapore4.Department of Electrical Engineering and Computer Science,Cleveland State University,Cleveland 44115,USA*通信作者.E-mail:收稿日期:20211027;修回日期:20211218;接受日期:20220318;网络出版日期:20230206国家重点研发计划(批准号:2020YFC1522701)、天津市面上项目(批准号:18JCYBJC15200)和国家自然科学基金(批准号:62072334)资助项目摘要对抗性攻击是研究深度神经网络脆弱性的前沿技术.然而现有工作大多关注基于加性噪声扰动的攻击,无法代表现实世界中的扰动因素,阻碍了对抗性攻击的实际应用.雾作为现实世界中广泛存在的自然现象,对图像造成显著影响,不可避免地对深度模型构成潜在威胁.本文首次尝试从对抗性攻击的角度研究雾对深度神经网络的影响,并提出两种基于雾扰动的对抗性攻击方法:基于优化的雾扰动对抗性攻击OAdvHaze,在深度神经网络的指引下优化大气散射模型参数,以合成有雾图像,该方法具有较高的攻击成功率.预测式雾扰动对抗性攻击PAdvHaze,采用深度神经网络直接预测雾合成参数,提高了对抗性攻击的速度.本文在ILSVRC 2012和NIPS 2017两个公开数据集上验证了所提出方法的有效性,OAdvHaze和PAdvHaze取得了与最先进攻击方法相当的攻击成功率和可迁移性.该工作将有助于评估和提高深度神经网络对现实世界中潜在雾扰动的鲁棒性.关键词对抗性攻击,图像分类,雾合成,深度学习,图像处理1引言深度神经网络(deep neural network,DNN)已经在目标检测1、协同显著性检测2、视觉目标跟踪3等许多计算机视觉任务中取得了巨大成功.但深度神经网络潜在的安全风险也逐渐显现出来,已有研究通过对网络的输入图像添加难以察觉的噪声,或应用某些非噪声变换来生成对抗性样本,使得深度神经网络模型预测结果出错,该过程被称作对抗性攻击.这些研究的实验结果表明,精心设计的对抗性样本可以很容易地使深度神经网络失效,而深入研究对抗性攻击方法以及相关的防御技术,有助于评估和提高深度神经网络的鲁棒性47.引用格式:高瑞均,郭青,余洪凯,等.基于雾扰动的图像分类对抗性攻击方法.中国科学:信息科学,2023,53:309324,doi:10.1360/SSI-2021-0362Gao R J,Guo Q,Yu H K,et al.Adversarial attack method against image classification based on haze perturbation(in Chinese).Sci Sin Inform,2023,53:309324,doi:10.1360/SSI-2021-0362高瑞均等:基于雾扰动的图像分类对抗性攻击方法Real hazy imagesHaze perturbation-based attackAdversarial examples generated based on haze perturbationResNet-50:soccer playerResNet-50:castleResNet-50:footballResNet-50:cliffCorrectly classifiedoriginal imagesMisclassifiedadversarial examples图1(网络版彩图)真实的有雾图像和基于雾扰动生成的对抗性样本Figure 1(Color online)Real hazy images and adversarial examples generated based on haze perturbation已有的工作中,对抗性样本大多基于噪声扰动进行合成712,针对自然现象等非噪声扰动的研究较少1316.相比噪声扰动,自然图像更易受到雨、雾、运动模糊等现象的干扰,因而人眼也更难察觉这些扰动的存在.对自然现象等非噪声扰动进行研究可以帮助缓解这些干扰对深度学习算法的影响.其中,雾作为真实世界中广泛存在的自然现象,已经成为深度学习算法性能下降或失效的原因之一17,借助雾产生的对抗性样本对于运行在真实场景中的深度学习算法的安全有巨大的潜在风险.然而,这方面的研究尚属空白.本文首次提出了基于雾扰动的对抗性攻击方法.如图1所示,本文方法可以向图像中合成具有对抗性的雾,有效地使深度神经网络分类模型预测出错误的类别.本文通过拓展经典大气散射模型,有效克服了均匀雾扰动攻击成功率低的挑战.本文方法合成的雾扰动具有很高的真实性,与真实的雾难以区别,相比噪声扰动更具隐蔽性和迷惑性.作者希望该工作能促进基于雾扰动的对抗性攻击的深入研究,同时帮助评估和增强神经网络模型对雾扰动攻击的鲁棒性.本文的主要贡献有如下3点.(1)提出两种基于雾扰动的对抗性攻击方法,分别是基于优化的雾扰动对抗性攻击(optimization-based adversarial haze attack,OAdvHaze)和预测式雾扰动对抗性攻击(predictive adversarial hazeattack,PAdvHaze).两种方法通过拓展经典大气散射模型,有效克服均匀雾扰动攻击成功率低的挑战.(2)展示了详细的对比实验,从攻击成功率和图像质量两个方面,对本文方法和基线攻击方法进行评估,包括有目标对抗性攻击和无目标对抗性攻击、白盒攻击和迁移攻击,充分验证了提出的新型对抗性攻击方法的有效性.本文方法OAdvHaze达到了与最先进的基线攻击方法相当的性能,同时具有较好的图像质量,PAdvHaze取得与最先进的非噪声扰动攻击方法相近的迁移攻击成功率,但计算开销更小.(3)通过可视化结果分析了成功迁移对抗性样本的相关矩阵,发现基于噪声和非噪声扰动的生成对抗性样本之间,成功进行迁移攻击的样本集合具有较大的差异.这有助于启发运用联合扰动进一步提升攻击成功率,并得到了实验验证.本文的第2节介绍了相关工作.第3节详细阐述了本文拓展的非均匀雾合成模型和基于此提出310中国科学:信息科学第 53 卷第 2 期的两种对抗性攻击方法.第4节为实验设置、实验结果及对结果的分析与讨论.第5节是对本文的总结和对未来工作的展望.2相关工作2.1对抗性攻击方法尽管基于深度学习的方法已经在计算机视觉等领域的诸多任务中表现出强力的性能,但深度神经网络模型也存在着许多安全性和鲁棒性问题.尤其是精心制作的对抗性样本能够轻易地误导深度神经网络模型,使其产生错误的预测结果.首先被提出的一类攻击方法是基于噪声扰动的攻击:基于梯度符号下降的快速梯度符号方法(fastgradient sign method,FGSM)7使用单步优化策略将加性噪声扰动加入到原始图像中,并使其误导基于线性分类器的机器学习模型,实验表明这种攻击方法也可对深度神经网络造成一定威胁.之后有研究工作提出了基本迭代方法(basic iteration method,BIM,也称作iterative FGSM,IFGSM)8,该方法在FGSM的基础上进行多步迭代优化,能针对深度神经网络模型进行更为有效的白盒攻击.由此也衍生出动量迭代快速梯度符号方法(momentum iterative fast gradient sign method,MIFGSM)10、多样输入方法(diverse input method,DIM)11、具有平移不变性的(translation invariant,TI)攻击12等改进方法,这些改进方法提高了对抗性攻击的跨模型迁移能力.除此之外,基于距离度量的C&W方法(Carlini&Wagner method)9也是一种白盒攻击能力很强的攻击方法,该方法使用二分查找算法确定能使被扰动图像误导深度神经网络模型的最小扰动距离,从而以较小的扰动程度达到对抗性攻击的目的,但其跨模型迁移能力差且计算开销较大.除了基于噪声扰动的攻击外,也有研究工作提出了基于非噪声扰动的攻击方法.基于语义着色的攻击(colorization adversarial attack,cAdv)和基于纹理迁移的tAdv(texture transfer-based adversarialattack)13通过对语义特征进行聚类,将原始图像划分为多个语义区域,并尝试替换每个语义区域的颜色和纹理,以达到误导深度神经网络的目的.基于水印合成的攻击(adversarial watermark attack,AdvWatermark)14则是提出了一种新型随机优化算法,向原始图像中添加有实际含义的半透明水印标记,使深度分类模型失效.基于运动模糊的攻击(motion-based adversarial blur attack,ABBA)15、基于雨合成的攻击(adversarial rain attack,AdvRain)16聚焦于模拟运动模糊、降雨等真实世界广泛存在的自然现象对原始图像进行扰动,以达成对抗性攻击的目的.它们应用于图像的扰动具有自然、难被察觉的特点,且在研究神经网络模型在特定自然场景下的鲁棒性具有重要意义.本文提出的基于雾扰动的对抗性攻击方法也属于此类.2.2雾合成方法在计算机图形学和计算机视觉领域,大气散射模型被广泛地应用于合成有雾图像,即H(x)=I(x)t(x)+A(1 t(x),(1)其中,x表示图像中的任意位置;t(x)是位置x处的介质传导率,描述了光从物体表面到达相机传感器时剩余部分的比例;A是大气环境光照;I(x)是位置x处的场景物体亮度;H(x)是最终合成的有雾图像.特别地,如果给定场景深度d(x)和大气散射系数,则可利用场景深度对t(x)进行计算:t(x)=exp(d(x),(2)311高瑞均等:基于雾扰动的图像分类对抗性攻击方法=0.05=0.10=0.15=0.20Original imageDepth mapA=1.0A=0.9A=0.8图2(网络版彩图)原始图像、深度图和基于大气散射模型合成的有雾图像Figure 2(Color online)Original image,depth map,and hazy images synthesized based on the atmospheric scatteringmodel其中 0,该函数将随着场景深度d(x)的增加单调减小,这反映了从场景中距离相机更远的物体射出的光将有更大的比例被散射,视觉上该处的雾也就更为严重.如图2所示,左侧展示了原始图像和与之对应的深度图,右侧展示了使用式(1)和(2)合成的有雾图像,其中每一行图像使用了相同的大气环境光照A进行合成,每一列图像使用了相同的大气散射系数进行合成.基于该模型,已有研究提出了一种可以向图像合成不同浓度的雾的传统方法18.除了传统的雾合成模型外,随着生成对抗网络(generative adversarial network,GAN)的发展,许多数据驱动的图像翻译方法被提出,它们可以将图像从一个数据域翻译到另一个域.其中有代表性的方法有Pix2Pix19,CycleGAN20,StarGAN21等,且已有工作将图像翻译用于雾合成任务22.但由于这类方法使用模型的复杂度较高且合成的有雾图像相对固定,缺少可变的参数来合成可调节的雾