温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
深度
学习
对抗
攻击
技术
综述
玲玲
技术前沿航天电子对抗2023年第 1期基于深度学习的对抗攻击技术综述*蒋玲玲1,罗娟娟1,朱玉鹏2,周东青2(1.北京邮电大学计算机学院,北京 100089;2.军事科学院系统工程研究院,北京 100089)摘要:尽管深度学习模型在很多领域表现优异,但是研究表明其本身容易受到对抗样本的攻击,在模型实际部署的时候存在安全隐患。因此,在深度学习安全领域研究对抗样本非常重要。对计算机视觉领域中对抗攻击技术的现有成果进行了详细综述。首先介绍了对抗攻击的定义、分类标准以及发展,然后对比分析了现阶段经典的白盒和黑盒攻击方法,最后使用 MNIST、CIFAR-10数据集对经典的攻击方法进行了实验验证。关键词:对抗样本;深度神经网络;黑盒攻击;白盒攻击中图分类号:TP319.08 文献标志码:AA survey on adversarial attacks against deep learningJiang Lingling1,Luo Juanjuan1,Zhu Yupeng2,Zhou Dongqing2(1.School of Computer Science,Beijing University of Posts and Telecommunications,Beijing 100089,China;2.Institute of Systems Engineering,Academy of Military Sciences,Beijing 100089,China)Abstract:Although deep learning models perform well in many fields,researches have shown that they are vulnerable to adversarial examples and face security risks when actually deployed.Therefore,the study of adver-sarial examples is of great significance in the field of deep learning security.A detailed review of existing results on adversarial attack techniques is presented in the field of computer vision.Firstly,the definition,classification criteria,and development of adversarial attacks are introduced.Then the classical white-box and black-box attack methods at this stage are compared and analyzed.Finally the classical attack methods are experimentally verified using MNIST,CIFAR-10 datasets.Key words:adversarial examples;deep neural network;black box attack;white box attack0 引言在大数据时代下,人工智能飞速发展,在计算机视觉1、自然语言处理2、语音3等领域都取得了很大的成就。2012年 Krizhevsky等人1提出 AlexNet,并且在 ImageNet4数据集上取得非常突出的表现,此后卷积神经网络(CNN)成为图像识别领域的标准结构。随着硬件设备的发展、对海量数据算力的提升,计算机视觉领域涌现了更多更好的深度神经网络(DNN),如 VGG5、GoogleNet6、ResNet7等,然而一旦面对蓄意攻击,深度学习系统往往会崩溃。比如,在路标上张贴攻击者精心制作的贴纸即可误导自动驾驶系统将停止路标识别为限速路标8,带上对抗眼镜框即可欺骗人脸识别系统9。这严重危胁了社会公共秩序和财产安全。深度学习模型给人类的生活带来巨大便利的同时,也带来了不容忽视的安全隐患问题。为了构建安全可靠的深度学习系统,减少其在实际部署应用时潜在问题的出现,保证深度学习模型的安全性、鲁棒性、可靠性,许多学者研究深度学习模型的安全与隐私问题,并提出了一系列对抗攻击方法。本文对现有的对抗攻击方法进行归纳和总结,第 1 节介绍对抗攻击的定义、分类标准和发展;第 2、3节分别介绍白盒和黑盒攻击方法;第 4 节通过实验验证对比分析经典的攻击算法;最后总结并展望。1 相关概念简介1.1对抗攻击的定义对抗攻击是指在干净样本上添加精心设计的人*基金项目:中央高校基本科研业务费(2021RC27)收稿日期:20221008;20221211修回。作者简介:蒋玲玲(1998-),女,硕士,主要研究方向为深度学习对抗攻击。-10DOI:10.16328/j.htdz8511.2023.01.011技术前沿蒋玲玲,等:基于深度学习的对抗攻击技术综述2023,39(1)眼不可见、或人眼可见的不影响整体的扰动以欺骗人工智能技术(AI),使得原样本不能被正确分类的过程。对抗样本是指以很高置信度使 AI误分类,然而人类依旧能够正确分类的样本10。1.2对抗攻击的分类攻击者会根据不同的攻击场景提出不同的攻击方法,通过归纳、总结现有的攻击方法,对抗攻击可以按照攻击环境、有无目标、迭代次数、扰动来源等标准分类,分类情况如表 1所示。1.3对抗攻击的发展自 2014年 Goodfellow 提出:一种快速产生对抗样本方法FGSM 后,对抗样本生成算法不断涌现,白盒攻击和黑盒攻击的发展历程如图 12 所示。在黑盒场景下,攻击者因其对模型了解的信息比白盒场景少,攻击难度更大,初始阶段发展缓慢,但黑盒攻击方法更贴近现实、挑战难度更大,后续研究较多。2 白盒攻击白盒攻击可以分为基于梯度的攻击、基于优化的攻击、基于决策边界的攻击、基于生成式模型的攻击、基于雅可比显著图的攻击。常见的白盒攻击方法的对 比 如 表 2 所 示。下 文 具 体 分 析 经 典 的 白 盒 攻 击方法。2.1基于梯度的攻击Goodfellow 等人11提出 FGSM 攻击方法,该方法使得目标模型的损失函数增大,即模型预测中真实标签对应的概率减小,因此沿着梯度生成方向攻击最合适。基于梯度的攻击以 FGSM 为基础,演变出其他攻击方法,FGSM 及其变体之间的关系如图 3 所示。图中,I-FGSM13引入步长,提出迭代的攻击方法;MI-FGSM15在梯度下降的过程中引入动量;PI-FGSM18使用放大因子来计算每步的步长,一方面可以避免在迭代过程中陷入目标模型的局部最优点,另一方面也为块级别扰动的产生提供了基础;NI-FGSM27在 I-FGSM 基础上使用 Nesterov加速梯度;VMI-FGSM28在 I-FGSM 基础上进一步考虑上一次迭代的梯度方差来调整当前梯度,以稳定梯度更新方向,避免陷入局部最优;DI2-FGSM16受到数据增强的启发,对输入的图 1白盒攻击的发展表 1对抗攻击的分类分类标准目标模型访问权限不同攻击有无目标攻击迭代次数扰动来源适用范围类别白盒攻击黑盒攻击非定向攻击定向攻击单步攻击迭代攻击来自数字世界的攻击来自物理世界的攻击个体攻击普适性攻击特点白盒攻击假定攻击者完全了解目标模型,包括训练数据、测试数据、模型结构甚至模型权重等一切内部信总,攻击者可以利用以上模型信息进行攻击。黑盒攻击假定攻击者在训练阶段无法访问模型,也不知道模型内部信息。在模型部署阶段,攻击者可以通过查询知道目标模型预测的分数。更严格的黑盒坏境下,只能通过查询得到预测的硬标签。非定向攻击只需要攻击方法产生的对抗样本的预测结果不是正确类别即可,具体是哪一类别并不关心。定向攻击要求对抗样本的预测结果为攻击者指定的类别,相对非定向攻击来说攻击难度更大。单步攻击只需要一步就可以生成对抗样本。迭代攻击需要多步才能生成对抗样本。来自数字世界的攻击,攻击者可以直接将修改后的数字图像输入到分类器中。对于来自物理世界的攻击,攻击者只接受来自摄像头的输入。个体攻击向每个样本添加不同的扰动。普适性攻击方法添加的扰动适用于整个数据集。-112023,39(1)航天电子对抗图片以固定的概率应用随机翻转、缩放;TI-FGSM17利用卷积神经网络平移不变性的思想。2.2基于优化的攻击寻找对抗样本是一个逐步优化的过程。一方面要确保添加的对抗扰动足够小,人眼无法察觉;另一方面,要确保模型要能够误分类对抗样本。因此,基于优化的攻击方法目标函数如下:Minimize|22s.t.f(x+)=ytar,x+0,1 R(1)式中,DNN 定义为f(),输入干净图片x,对应 DNN的预测结果为f(x),为添加的全局扰动,ytar为目标标签。常见的基于优化的攻击方法有 2种:1)L-BFGSSzegedy 等人12提出的 L-BFGS 攻击方法是对抗样本领域的开山之作。在公式(1)中满足条件的值不唯一,用D(x,ytar)来表示一个最小的。因为找到扰动D是十分困难的,所以可转换为求解以下问题得到对抗样本。Minimize c L(x+,ytar;)+|22s.t.x+0,1 R(2)式中,L为损失函数。通过线性搜索找到满足c 0的参 数c,转 化 为 求 解 盒 约 束 的 L-BFGS 从 而 找 到D(x,ytar)的近似值,后续基于优化的攻击都是基于公图 3FGSM 及其变体之间的关系表 2白盒攻击方法对比攻击方法FGSM11I-FGSM13PGD14MI-FGSM15DI2-FGSM16TI-FGSM17PI-FGSM18PI-FGSM+19L-BFGS12CW20DeepFool21UAP22AdvGAN23ATN24JSMA25MJSMA26分类梯度梯度梯度梯度梯度梯度梯度梯度优化优化边界边界生成式模型生成式模型显著图显著图有无目标定向、非定向定向、非定向定向、非定向定向、非定向定向、非定向定向、非定向非定向定向定向定向、非定向非定向非定向定向定向定向非定向迭代次数单次迭代迭代迭代迭代迭代迭代迭代迭代迭代迭代迭代迭代迭代迭代迭代度量距离LLLL2L2LLLL2L0、L2、LL2L2L2LL0L0个体/通用个体个体个体个体个体个体个体个体个体个体个体通用个体个体个体个体图 2黑盒攻击的发展-12技术前沿蒋玲玲,等:基于深度学习的对抗攻击技术综述2023,39(1)式(2)改进的,但是对抗样本的质量依赖于参数c的选择,寻找满足条件的c需要消耗大量时间。2)C&WCarlini 和 Wagner 等人20提出基于最优化目标的攻 击 方 法 C&W 与 L-BFGS 相 似,优 化 目 标 为 公 式(2)。C&W 中对抗扰动定义如下:=(tanh()+1)/2-x(3)则x+=(tanh()+1)/2 0,1,可以确保对抗样本始终在图片有效范围内。对于目标攻击而言,目标类别为ytar,损失函数L(xadv)可以定义为:L(xadv)=max(max Z(xadv)i:i ytar-Z(xadv)ytar,-k)(4)式中,Z(x)是神经网络未经过 Softmax层之前的值。C&W 与 L-BFGS、FGSM 等攻击方法相比攻击效果、视觉效果更好,同时能以很高置信度攻击防御性的蒸馏模型。但是 C&W 是基于优化的攻击,大量的时间消耗在常数c的搜索上,攻击效率低。2.3基于边界的攻击基于决策边界的攻击方法是基于分类模型中高维超平面分类的思想,即为了改变某个样本x的分类,可以将x迭代式地朝着模型决策边界移动,直到越过模型决策边界,从而被模型误分类。基于决策边界的攻击方法有 2种:1)DeepFool基于解析几何原理,Moosavi-Dezfooli等人21提出了 DeepFool攻击方法。在多分类问题中,分类边界和样本的距离即为改