7.11 物理攻击YOLO概述

智能系统与技术丛书·AI安全之对抗样本入门作者：兜哥投票推荐加入书签留言反馈

    7.11 物理攻击yolo概述
    在白盒攻击中，攻击者可以完全控制输入，可以直接修改输入模型的原始数据，并且完全了解模型的网络结构，根据自定义的损失函数计算梯度。但是在物理攻击中，攻击者无法完全控制输入模型的数据，对于模型如何预处理原始数据也一无所知。攻击者的对抗样本只能通过摄像头、麦克风这类物理设备，经过一系列黑盒般的预处理后才能真正进入模型。以智能驾驶车辆的交通标志识别为例，如图7-61所示，智能驾驶车辆通过前置摄像头拍摄车辆前部的画面，前置摄像头把视频数据转换成一帧一帧的图像；图像经过高斯滤波器处理，过滤掉明显的噪声数据，然后经过canny算法进行边缘检测，通过hough变换进行圆形检测，得到了圆形交通标志的坐标数据；接着按照圆形交通标志的坐标数据，从原始图像中截取交通标志的原始数据，缩放成交通标志分类模型的输入层大小后，输入该模型进行分类预测，得到分类结果。当分类结果的预测概率超过一定的阈值时，认为识别结果可信，比如识别为80公里限速的概率超过90%，则认为前方有80公里限速的交通标志，应该适当调整车速。当识别的概率低于阈值时，则忽略识别结果。
    图7-61 智能驾驶车辆交通标志识别原理图
    以物理攻击交通标志识别为例，如图7-62所示，对抗样本通常只能以交通标志或者一张海报的形式存在，通过在交通标志或者海报上打印上扰动来攻击深度学习模型。
    图7-62 物理攻击时对抗样本的形态
    dr.zhenyu（edward）和dr.yunhan jia在blackhat europe 2018上发表了演讲“perception deception：physical adversarial attack challenges and tactics for dnn-based object detection”，他们介绍了物理攻击遇到的诸多问题。如图7-63所示，对抗样本在真正输入到分类模型的过程中，需要考虑到以下因素：
    ? 控制扰动/对抗样本的区域。
    ? 目标距离、角度的变化带来的干扰。
    ? 光照条件的干扰。
    ? 打印设备、摄像头采集的颜色范围。
    图7-63 物理攻击中遇到的难点
    克服这些干扰因素的方法的核心思路是，在生成对抗样本的迭代过程中，把打印设备的像素彩色输出范围和对抗样本的色差作为损失函数的一部分，并且在训练过程中引入仿射变换和光照变化。
    最后达到的攻击效果如图7-64所示，在时间t0的时候，当在车后显示器中显示正常logo时，yolo v3可以正确识别目标车辆，而在t1时刻，切换到扰动后的图片时，它可以立刻让目标车辆在yolo v3面前变得无法辨识；在t2时刻，如图7-65所示切换回正常的图片，yolo v3可以重新识别目标车辆。
    图7-64 t0时刻可以正常识别出车辆，t1时刻无法识别出车辆
    图7-65 t2时刻可以正常识别出车辆