8.2.5 ICLR 2018提出的对抗样本抵御方法
8.2.5 iclr 2018提出的对抗样本抵御方法
iclr(international conference of learning representation)是由lecun、hinton和bengio三位ai领域的元老联手发起的。近年来随着深度学习在工程实践中的成功,iclr会议也在短短的几年中发展成为ai领域的顶会。在iclr 2018中提出了8篇介绍对抗样本的抵御方法,这些方法都有意或无意地使用了一种称为梯度掩蔽(gradient masking)的方法。大多数白盒攻击通过计算模型的梯度来运行,因此如果不能通过计算得到有效的梯度,那么攻击就会失效。梯度掩蔽使得梯度变得无用,这通常是通过在某种程度上改变模型,使其不可微分,或者使其在大多数情况下具有零梯度,或者梯度点远离决策边界。
以cihang xie等人在《mitigating adversarial effects through randomization》一文中提出的随机化方法为例。如图8-27所示,cihang xie针对输入图片做了两个随机化处理,一个是随机缩放图片的大小。原始图片的大小为[229,229,3],经过处理后随机缩放到大小为[rnd,rnd,3],其中rnd的取值范围为大于等于229且小于331。第二个随机化处理就是在图片周围随机填充白色或者黑色背景,最后得到的图片大小为[331,331,3],这样一共可以有12528种组合方式。
图8-27 随机化方法原理
防御效果如图8-28所示,表格第一列为攻击算法,包含fgsm、deepfool和cw,其中fgsm-2表示fgsm攻击算法的攻击步长eps参数为2。第一行表示被攻击的模型,分别为inception-v3、resnet-v2-101、inceptionresnet-v2和ens-adv-inceptionresnet-v2,其中ens-adv-inceptionresnet-v2是nips 2017中提供的经过对抗训练的inceptionresnet-v2模型。表格中显示的百分比指的是模型正确分类的比例,因此百分比越大表明模型可以正确分类的比例越大,抵御攻击的能力越强。实验结果表明,随机化防御算法可以提高模型的防御能力,尤其对于deepfool和cw提升效果明显。另外经过对抗训练的inceptionresnet-v2模型对于fgsm具有良好的防御能力。
但是很快就有研究人员使用iclr 2018接收论文中的防御对抗样本论文作为研究对象,研究发现梯度掩蔽的使用是一种普遍现象,在8篇论文里,有7篇研究依赖于该现象。研究者应用新开发的攻击技术,解决了梯度掩蔽问题,如图8-29所示成功攻破其中的7个,示例代码位于:
https://github.com/anishathalye/obfuscated-gradients
图8-28 随机化方法防御效果
图8-29 研究者应用新的攻击技术成功攻破iclr 2018中的7种防御算法
iclr(international conference of learning representation)是由lecun、hinton和bengio三位ai领域的元老联手发起的。近年来随着深度学习在工程实践中的成功,iclr会议也在短短的几年中发展成为ai领域的顶会。在iclr 2018中提出了8篇介绍对抗样本的抵御方法,这些方法都有意或无意地使用了一种称为梯度掩蔽(gradient masking)的方法。大多数白盒攻击通过计算模型的梯度来运行,因此如果不能通过计算得到有效的梯度,那么攻击就会失效。梯度掩蔽使得梯度变得无用,这通常是通过在某种程度上改变模型,使其不可微分,或者使其在大多数情况下具有零梯度,或者梯度点远离决策边界。
以cihang xie等人在《mitigating adversarial effects through randomization》一文中提出的随机化方法为例。如图8-27所示,cihang xie针对输入图片做了两个随机化处理,一个是随机缩放图片的大小。原始图片的大小为[229,229,3],经过处理后随机缩放到大小为[rnd,rnd,3],其中rnd的取值范围为大于等于229且小于331。第二个随机化处理就是在图片周围随机填充白色或者黑色背景,最后得到的图片大小为[331,331,3],这样一共可以有12528种组合方式。
图8-27 随机化方法原理
防御效果如图8-28所示,表格第一列为攻击算法,包含fgsm、deepfool和cw,其中fgsm-2表示fgsm攻击算法的攻击步长eps参数为2。第一行表示被攻击的模型,分别为inception-v3、resnet-v2-101、inceptionresnet-v2和ens-adv-inceptionresnet-v2,其中ens-adv-inceptionresnet-v2是nips 2017中提供的经过对抗训练的inceptionresnet-v2模型。表格中显示的百分比指的是模型正确分类的比例,因此百分比越大表明模型可以正确分类的比例越大,抵御攻击的能力越强。实验结果表明,随机化防御算法可以提高模型的防御能力,尤其对于deepfool和cw提升效果明显。另外经过对抗训练的inceptionresnet-v2模型对于fgsm具有良好的防御能力。
但是很快就有研究人员使用iclr 2018接收论文中的防御对抗样本论文作为研究对象,研究发现梯度掩蔽的使用是一种普遍现象,在8篇论文里,有7篇研究依赖于该现象。研究者应用新开发的攻击技术,解决了梯度掩蔽问题,如图8-29所示成功攻破其中的7个,示例代码位于:
https://github.com/anishathalye/obfuscated-gradients
图8-28 随机化方法防御效果
图8-29 研究者应用新的攻击技术成功攻破iclr 2018中的7种防御算法