英语原文共 21 页,剩余内容已隐藏,支付完成后下载完整资料
计算机视觉中模型鲁棒性的傅里叶透视
摘要
实现对分布转移的鲁棒性是计算机视觉的一个长期且具有挑战性的目标。数据增强是提高健壮性的一种常用方法,然而,健壮性的增益在不同的破坏类型之间通常并不一致。的确,在随机噪声存在的情况下提高性能,往往会遇到在对比度变化等其他破坏时性能下降的情况。理解这些权衡发生的时间和原因是减少它们的关键一步。为此,我们调查了最近观察到的高斯数据增强和对抗训练造成的权衡。我们发现两种方法都提高了对集中在高频域的腐蚀的鲁棒性,同时降低了对集中在低频域的腐蚀的鲁棒性。这表明,通过数据扩展来减轻这些权衡的一种方法是使用更多样化的扩展集。为此,我们观察到,最近提出的数据增强策略AutoAugment[6]在CIFAR-10-C[17]基准上实现了最先进的鲁棒性。
1 介绍
尽管许多深度学习计算机视觉模型在许多标准的i.i.d基准上取得了显著的性能,但当训练和测试分布不同[24]时,这些模型缺乏人类视觉系统的鲁棒性。例如,已经观察到常见的图像损坏,如随机噪声、对比度变化和模糊,会导致显著的性能下降[8,3]。提高分布式健壮性是在复杂的现实环境中安全部署模型的重要一步。
*在谷歌研究公司Brain团队实习期间完成的工作。
dagger;作为Google AI派驻计划g.co/airesidency的成员完成的工作。
3部分实现是在https://github.com/google-research/google-research/tree/master/
frequency_analysis
第33届神经信息处理系统会议(NeurIPS 2019),加拿大温哥华。
数据增强是学习稳健模型的一种自然且有时有效的方法。数据增强的例子包括对抗性训练[14],对训练数据应用图像转换,如翻转、裁剪、添加随机噪声,甚至是程式化的图像转换[11]。
然而,数据增强很少能改善所有破坏类型的健壮性。在某些腐败行为上的性能提高可能会导致其他腐败行为的大幅减少。例如,在[10]中观察到,高斯数据增强和对抗训练提高了CIFAR-10-C和ImageNet-C常见破坏基准[17]对噪声和模糊破坏的鲁棒性,同时显著降低了雾和对比度破坏的性能。这就引出了一个自然的问题。
哪些扩展策略提高了性能,哪些性能降低了,这两种破坏有什么不同?
理解这些张力以及它们发生的原因是设计稳健模型的重要第一步。我们的假设是,这些不同腐败的频率信息提供了对许多观察到的权衡的解释。通过广泛的实验,包括在傅里叶域中的扰动,我们证明了这两种增强方法使模型偏向于利用输入中的低频信息。这种低频率偏差提高了对本质上频率更高的腐败行为的鲁棒性,同时降低了对频率较低的腐败行为的性能。
我们的分析表明,可以利用更多不同的数据增强程序来减轻这些观察到的权衡,这似乎确实是正确的。特别是,我们演示了最近提出的自动增强数据增强策略[6]在CIFAR-10-C基准测试上实现了最先进的结果。此外,一项后续工作以某种方式利用自动增强技术在ImageNet-C[1]上实现了最先进的结果。
我们的一些观察可能对安全研究有兴趣。例如,我们观察到傅里叶域中的扰动,当应用于图像时,在ImageNet上模型错误率超过90%,同时保留了图像的语义。这些攻击符合简单、单查询黑盒攻击的条件,满足内容保留威胁模型[13]。同时进行的研究[26]也观察到了这一点。
最后,我们扩展我们的频率分析,以更好地理解输入的最坏情况摄动。特别是,自然训练模型的对抗性扰动在本质上更高频,而对抗性训练鼓励这些扰动在低频域更集中。
2准备工作
我们用k·k表示向量(通常是张量)的2范数。对于向量xisin;Rd,我们用x[i]表示它的项,iisin;{0,hellip;对于矩阵Xisin;Rd1times;d2,我们用X[i, j], iisin;{0,hellip;, d1minus;1},jisin;{0,hellip;d2minus;1}。我们省略了图像通道的维数,用矩阵Xisin;Rd1times;d2表示。我们用F表示:Rd1times;d2→Cd1times;d2the二维离散傅里叶变换(DFT),用Fminus;1表示逆DFT。当我们想象傅里叶频谱时,我们总是把低频分量移到频谱的中心。
我们将带宽为B的高通滤波定义为:在中心频率最高的傅里叶频谱中,除宽度为B的中心方框外的所有频率分量均为零,然后应用逆DFT。低通滤波操作的定义与此类似,其差值是将中心正方形应用于低频移到中心的傅里叶频谱。
我们假设像素的取值范围是[0,1]。在我们所有的数据增强实验中,我们总是剪切像素值到[0,1]。我们将带sigma;参数的高斯数据增宽定义为如下操作:在每次迭代中,我们在训练批中的所有图像的每个像素上添加i.i.d.高斯噪声N(0,e sigma;2),其中e sigma;从[0,sigma;]中均匀随机选取。在CIFAR-10上的实验中,我们使用了宽幅的ResNet-28-10架构[27],而在ImageNet上的实验中,我们使用了ResNet-50架构[16]。在使用高斯数据增强时,CIFAR-10的参数选择sigma; = 0.1, ImageNet的参数选择sigma; = 0.4。所有实验在训练中使用翻转和裁剪。
相比之下,产生小型对抗扰动的方法需要1000次查询[15]。
傅立叶热图 我们将通过傅立叶域中的摄动分析来研究模型对高频率和低频率畸变的敏感性。设Ui,jisin;Rd1times;d2be一个实值矩阵,使kUi,jk = 1,和F(Ui,j)在(i, j)处最多只有两个非零元素及其对图像中心的对称坐标;我们称这些矩阵为二维F傅里叶基矩阵[4]。
给出一个模型和一个验证图像X,我们可以生成一个带有傅里叶基噪声的扰动图像。更具体地说,我们可以计算exi,j= X rvUi,j,其中r从{minus;1,1}中一致随机选择,而v gt; 0是扰动的范数。对于多通道图像,我们分别对每个通道进行扰动。然后,我们可以在傅里叶基噪声下评估模型,并可视化测试误差如何作为(i, j)的函数变化,我们称这些结果为模型的傅里叶热图。我们还感兴趣的是,当我们使用特定的傅里叶基扰动图像时,模型中间层的输出是如何变化的,这些结果将放在附录中。
3鲁棒性问题
图1:使用来自人类无法识别的输入信息,模型可以实现较高的准确性。上面显示的是经过训练和测试的模型,在输入端应用了积极的高通和低通滤波。通过积极的低通滤波,当图像看起来是简单的颜色团时,模型在ImageNet上仍然超过30%。在high-pass (HP)滤波的情况下,模型可以利用人类几乎看不见的输入特征达到50%以上的精度。如图所示,为了正确地可视化高频特征,需要对高通滤波后的图像进行归一化处理(我们用于可视化高通滤波后图像的方法在附录中提供)。
模型在训练和测试数据被识别出来的标准设置中,如何可能实现如此高的性能,而在存在甚至是微妙的分布转移的情况下表现如此糟糕?为了更好地理解鲁棒性问题,之前已经进行了大量的工作。虽然这个问题还远未被完全理解,但也许最简单的解释是,模型缺乏对分布转移的鲁棒性,因为它们没有理由是鲁棒的[20,11,18]。在自然发生的数据中,输入和目标之间有许多关联,模型可以很好地利用这些关联进行概括。然而,如果这些统计数据在测试时被损坏,那么利用这些足够的统计数据将导致模型性能的急剧下降。
作为这个原则的一个简单示例,请考虑[19]中的图8。作者在MNIST的“作弊”变体上试验了训练模型,其中目标标签是根据单个像素的位置进行编码的。在移除这个“作弊”像素的图像上测试的模型表现不佳。这是一个不幸运的设置,奥卡姆剃刀可能会失败。对数据最简单的解释可能在训练和测试数据都被识别的完美设置中很好地概括,但不能稳健地概括。虽然这个例子是人为的,但是很明显模型的脆性是与自然发生的数据中的非鲁棒统计联系在一起的。
作为一个更现实的例子,考虑最近提出的纹理假设[11]。利用自然图像数据训练的模型,依靠与纹理相关的局部统计量,可以获得较高的分类性能。然而,由于天气或数字工件导致的自然发生的损坏,类似纹理的信息很容易被扭曲,从而导致鲁棒性较差。
在图像域中,输入和目标之间存在大量的相关性。简单的统计数据,如颜色、局部纹理、形状,甚至不直观的高频模式,都可以用来实现显著的i.d泛化。为了证明这一点,我们对ImageNet模型进行了训练和测试,在频域对输入进行了严格的滤波。虽然在模型压缩[9]中使用了适度滤波,但为了测试模型泛化的局限性,我们进行了极端滤波实验。结果如图1所示。当应用低频滤波时,即使图像看起来是简单的色斑,模型也能达到30%以上的测试精度。更令人吃惊的是,模型在存在严重的高频滤波的情况下,利用人类几乎看不见的高频特征,可以达到50%的精度。为了使这些高频特征形象化,我们将像素统计值归一化,使其具有单位方差。考虑到这些类型特征对于泛化是有用的,模型利用这些非健壮的统计数据也就不足为奇了。
这些不可见的高频特征似乎与[18]的实验有关,实验表明某些不可见的扰动图像中含有一些对泛化有用的特征。我们将在第4.4节中详细讨论这些联系。
4腐败之间的权衡和相关性:傅里叶的观点
前一节论证了高低频特征对分类都是有用的。一个自然的假设是,数据增强可能会使模型倾向于在分类中使用不同类型的特征。模型所使用的特征类型将最终决定测试时的健壮性。在这里,我们采用傅立叶的观点来研究当我们应用几种数据增强方法时,损坏之间的权衡和相关性。
4.1高斯数据增强和针对低频信息的对抗训练偏差模型
Ford等人[10]在CIFAR-10-C上研究了三个模型的鲁棒性:自然训练模型、高斯数据增强训练模型和对抗训练模型。据观察,高斯数据增强和对抗训练提高了对所有噪声和许多模糊破坏的鲁棒性,同时降低了对雾和对比度的鲁棒性。例如,对抗性训练降低最严重的对比腐蚀性能从85.66%到55.29%。在ImageNet-C上也报道了类似的结果。
我们假设其中一些权衡可以通过不同腐败的傅立叶统计来解释。用C: Rd1times;d2→Rd1times;d2表示一个(可能是随机的)破坏函数。在图2中,我们可视化了自然图像的傅里叶统计量以及常见腐蚀的平均delta。自然图像在低频率有更高的浓度,因此当我们提到“高”或“低”频率破坏时,我们总是在相对尺度上使用这个术语。高斯噪声均匀分布在傅里叶频率上,因此相对于自然图像有更高的频率统计。许多模糊腐蚀删除或改变图像的高频内容。因此,C(X)minus;X将具有更高的高频能量分数。对于对比度和雾等腐败现象,腐败的能量更多地集中在低频成分上。
傅里叶统计中观察到的差异说明了为什么这两种增强方法在加性噪声中提高了性能,而在雾和对比度中却没有提高性能
图2:左:自然图像的傅里叶光谱;我们通过对CIFAR-10验证图像取平均估计E[|F(X)[i, j]|]。右:CIFAR-10-C严重程度为3的腐败的傅里叶光谱。对于每个损坏,我们通过平均所有验证图像来估计E[|F(C(X)minus;X)[i, j]|]。加性噪声在高频有较高的浓度,而雾和对比度等畸变则在低频有较高的浓度。
图3:CIFAR-10上模型对不同傅里叶基向量对齐的加性噪声的灵敏度我们将加性噪声固定为l2norm 4,并评估三个模型:一个自然训练的模型,一个对抗训练的模型,和一个用高斯数据增强训练的模型。错误率是从测试集中随机抽取的1000张图像中得出的平均值。在底部一行,我们展示了沿相应的傅里叶基向量受噪声干扰的图像。自然训练的模型对除最低频率外的所有加性噪声都非常敏感。对抗训练和高斯数据增强在较高频率上都显著提高了鲁棒性,而牺牲了自然训练模型在最低频率上的鲁棒性(即在这两个模型中,中间的蓝色区域都小于自然训练模型的蓝色区域)。
方法鼓励模型对高频信息保持不变,同时更多地依赖低频信息。我们通过对三种模型的扰动分析来研究这一假设。首先,我们沿着每个傅里叶基向量测试模型对扰动的敏感性。CIFAR-10的结果如图3所示。这三种模式之间的差异是显著的。自然训练的模型对除最低频率外的所有频率的加性扰动都非常敏感,而高斯数据增强和对抗训练都显著提高了较高频率的鲁棒性。对于使用数据增强训练的模型,我们看到在最低频率(相对于自然训练的模型)上存在微妙但明显的鲁棒性缺乏。图4显示了ImageNet上三种不同模型的类似结果。与CIFAR-10类似,高斯数据增强提高了对高频扰动的鲁棒性,同时降低了对低频扰动的性能。
图4:在ImageNet验证图像上,模型对不同傅里叶基向量对齐的加性噪声的敏感性。我们把基向量固定为2范数15.7。错误率在整个ImageNet验证集上取平均值。我们在傅里叶域中给出了以最低频率为中心的63 times; 63的正方形。同样,自然训练的模型对除最低频率外的所有加性噪声都非常敏感。另一方面,高斯数据增强提高了高频的鲁棒性,同时牺牲了低频扰动的鲁棒性。对于自动增强,我们观察到它的傅立叶热图在中心周围有最大的蓝色/黄色区域,这表明自动增强对低到中频损坏是相对稳健的。
为了进一步测试,我们添加了固定2范数但以原点为中心的不同频率带宽的噪声。我们考虑两种设置,一种是原点以最低频率为中心,另一种是原点以最高频率为中心。如图5所示,对于size 3的低频中心带宽,自然训练模型的错误率不到其他两个模型的一半。对于高频带宽,使用数据增强训练的模型明显优于自然训练的模型。
图5:固定范数和不同频率分布的加性噪声下模型的鲁棒性。对于CIFAR-10测试图像中的每个通道,在应用到图像之前,我们对i.i.d高斯噪声采样,应用低/高通滤波器,并将滤波后的噪声归一化到l2n
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[259329],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。