8.2.5 ICLR 2018提出的对抗样本抵御方法

智能系统与技术丛书·AI安全之对抗样本入门作者：兜哥投票推荐加入书签留言反馈

    8.2.5 iclr 2018提出的对抗样本抵御方法
    iclr（international conference of learning representation）是由lecun、hinton和bengio三位ai领域的元老联手发起的。近年来随着深度学习在工程实践中的成功，iclr会议也在短短的几年中发展成为ai领域的顶会。在iclr 2018中提出了8篇介绍对抗样本的抵御方法，这些方法都有意或无意地使用了一种称为梯度掩蔽（gradient masking）的方法。大多数白盒攻击通过计算模型的梯度来运行，因此如果不能通过计算得到有效的梯度，那么攻击就会失效。梯度掩蔽使得梯度变得无用，这通常是通过在某种程度上改变模型，使其不可微分，或者使其在大多数情况下具有零梯度，或者梯度点远离决策边界。
    以cihang xie等人在《mitigating adversarial effects through randomization》一文中提出的随机化方法为例。如图8-27所示，cihang xie针对输入图片做了两个随机化处理，一个是随机缩放图片的大小。原始图片的大小为[229，229，3]，经过处理后随机缩放到大小为[rnd，rnd，3]，其中rnd的取值范围为大于等于229且小于331。第二个随机化处理就是在图片周围随机填充白色或者黑色背景，最后得到的图片大小为[331，331，3]，这样一共可以有12528种组合方式。
    图8-27 随机化方法原理
    防御效果如图8-28所示，表格第一列为攻击算法，包含fgsm、deepfool和cw，其中fgsm-2表示fgsm攻击算法的攻击步长eps参数为2。第一行表示被攻击的模型，分别为inception-v3、resnet-v2-101、inceptionresnet-v2和ens-adv-inceptionresnet-v2，其中ens-adv-inceptionresnet-v2是nips 2017中提供的经过对抗训练的inceptionresnet-v2模型。表格中显示的百分比指的是模型正确分类的比例，因此百分比越大表明模型可以正确分类的比例越大，抵御攻击的能力越强。实验结果表明，随机化防御算法可以提高模型的防御能力，尤其对于deepfool和cw提升效果明显。另外经过对抗训练的inceptionresnet-v2模型对于fgsm具有良好的防御能力。
    但是很快就有研究人员使用iclr 2018接收论文中的防御对抗样本论文作为研究对象，研究发现梯度掩蔽的使用是一种普遍现象，在8篇论文里，有7篇研究依赖于该现象。研究者应用新开发的攻击技术，解决了梯度掩蔽问题，如图8-29所示成功攻破其中的7个，示例代码位于：
    https://github.com/anishathalye/obfuscated-gradients
    图8-28 随机化方法防御效果
    图8-29 研究者应用新的攻击技术成功攻破iclr 2018中的7种防御算法