面向智能驾驶视觉感知的对抗样本攻击与防御方法综述

2022-04-14 08:30:34 | 浏览次数:

zoޛ)j首学习已然成为机器学习领域最热门的研究方向之一,其在图像识别、目标检测、语音处理、问答系统等诸多领域都取得了巨大成功.然而通过附加经过特殊设计的细微扰动而构造出的对抗样本,能够破坏深度模型的原有性能,其存在使许多对安全性能指标具有极高要求的技术领域,特别是以视觉感知为主要技术优先的智能驾驶系统,面临新的威胁和挑战.因此,对对抗样本的生成攻击和主动防御研究,成为深度学习和计算机视觉领域极为重要的交叉性研究课题.本文首先简述了对抗样本的相关概念,在此基础上详细介绍了一系列典型的对抗样本攻击和防御算法.随后,列举了针对视觉感知系统的多个物理世界攻击实例,探讨了其对智能驾驶领域的潜在影响.最后,对对抗样本的攻击与防御研究进行了技术展望.

关键词 对抗样本;目标检测;语义分割;智能驾驶

中图分类号TP391

文献标志码A

0 引言

得益于深度学习[1]技术的巨大突破以及计算机性能的快速提高,人工智能相关研究被提到了一个前所未有的高度.大量的新技术如语言翻译、人脸识别、图像生成、场景检测等迅速出现并被广泛应用.

在深度学习领域,研究者们不断追求着更快的速度、更高的精度以及更广的应用范围,然而在这一片欣欣向荣之景的角落,却隐藏着一个“幽灵”,它难以被人发现却能轻松“破坏”研究者们引以为傲的智能机器.尽管这些智能机器的精确度已在诸多应用中远超人类,但在这个“幽灵”面前,很可能立刻变成低能儿.而这个“幽灵”就叫做对抗样本(Adversarial Examples)[2].

2013年,Szegedy等[3]在研究图像分类问题时首次发现了这个奇怪的现象:在测试图片上附加一些经过特殊设计且人眼难以察觉的轻微扰动,并将其输入基于深度神经网络(Deep Neural Network,DNN)的图像分类系统后,会得到错误的输出结果,而这个错误的输出甚至可以被他们任意指定.简单来说,对于这个分类系统,干净样本(未附加扰动的原始图像)与附加了扰动的样本有着巨大的差异,但在人类观察者眼中,两者几乎毫无差别.如图1所示,深度模型将加入了细微扰动的“熊猫”错误地识别为了“长臂猿”.图1a是干净样本,可以看到图中是一只熊猫.图1b就是经过特殊设计生成的对抗扰动,它好似一团毫无意义的噪声.而图1c就是干净样本附加扰动之后生成的对抗样本了,我们会认为它和图1a完全一样,但分类器却将它识别为了长臂猿.

这个发现很快引起了各方研究者的注意.他们将这个被附加轻微扰动从而具有“攻击性”的输入样本定义为对抗样本,而生成这些扰动的算法就叫做对抗样本生成算法,也叫攻击算法(Adversarial Attack).

随着对对抗样本的深入研究,针对其他模型或任务的攻击算法也随后出现.各种深度学习模型如DNN模型、强化学习模型、循环神经网络模型等,以及各类任务包括图像分类、场景检测、语义分割等,无一例外都被“量身定制”的对抗样本成功攻击.

既然存在着对抗样本这么一支锋利的矛,那么就需要一個坚固的盾来抵御它.事实上,针对防御算法(Adversarial Defense)[4]的研究早在对抗样本发现初期就开始了.尽管目前在防御方面确实取得了不少的成果,提出了许多切实可行的防御思路,但始终存在着难以突破的局限与挑战,很多时候这些防御方法无法得到令人满意的结果.就目前来讲,现有防御算法仍无法有效抵御大部分攻击算法.

1 对抗样本攻击算法

对于对抗样本的研究也不过6年时间,针对不同模型或不同任务的攻击算法却有不少.简单来说,大致可以将这些攻击算法分为两类,分别是有目标指向的攻击和无目标指向的攻击.前者是指在对抗样本输入模型之后,会获得攻击者指定好的错误结果,比如让受到扰动的汽车图像统一错分类为风筝.而后者表示获得的结果只要是错误的就行,具体内容无所谓.另外,如果进一步细分,还可以分为单步攻击和迭代攻击两种.表1给出了部分比较典型的攻击算法.

FGSM是无目标指向的单步攻击算法,因此其训练速度很快,但由于其攻击思路相对简单,导致其攻击效果不是很理想,而且目前许多防御算法都能高效抵御FGSM的攻击.

对FGSM的直接改进便是放弃向梯度方向跨固定步长的做法,转而迭代地进行许多次的小步幅扰动,在每次扰动后调整扰动方向以达到攻击的目的,这就是基本迭代算法(Basic Iterative Method,BIM)[7].

此外,无目标指向的迭代攻击还有DeepFool[8]、UAP[9]、PGD[10]等.此处再介绍一下DeepFool.DeepFool由Moosavi-Dezfooli等[8]提出,该算法主要根据网络的原始决策边界来迭代生成对抗扰动,将位于分类边界内的图像逐步推到边界外,直到出现错分类.形象来说,它和BIM的差异在于:BIM通过多次小步幅的调整,将受扰动的图像沿着任意路径远离正确的类直至出错,而DeepFool则是让其从正确的类指向类决策边界进行移动,以最短路径进入其他的类别区域.这种做法使产生的扰动更加细微,进一步增强了其不可见性.

1.2 有目标指向的攻击

对于有目标指向的单步攻击,比较典型的有LLC算法[7].事实上,这种算法是FGSM的一个扩展,它用DNN分类器预测的最低概率的类别标签来替代FGSM中使用的真实标签,并最小化损失函数,然后从原始图像中减去计算出来的扰动从而得到对抗样本.

类似于BIM,LLC自然也存在其迭代版本ILLC[7].其他有目标指向的迭代攻击还有JSMA[11]、C&W攻击[12]、EAD[13]等.其中C&W攻击算法由Carlini和Wagner提出,他们针对同时期提出的用于抵抗对抗样本的防御蒸馏法[14],引入了3种攻击算法.C&W算法的优势在于其可以根据自身需求调节置信度,且生成的扰动更小,同时它可以破解包括防御蒸馏法在内的多种防御算法,使其适用于黑盒攻击.当然,这个攻击算法的缺点是计算量太大.

推荐访问: 感知 样本 防御 综述 对抗