人工智能算法针对经典生成模型变分自动编码器的对抗攻击

发布时间:2018-06-16 15:00:31   来源:网络 点击 :
趣说人工智能 2018-06-16 10:35

人工智能算法针对经典生成模型变分自动编码器的对抗攻击(首创)(特约点评:人工智能算法针对经典生成模型变分自动编码器的对抗攻击对于对深度学习对抗攻击开辟了新的领域,这个创新点趣说人工智能必须推荐。来自网友小星的推荐!)

人工智能算法针对经典生成模型变分自动编码器的对抗攻击简介:敌对攻击通过制造恶意输入来破坏模型。图像分类错误标记这些输入- 在视觉上难以区分普通人 - 具有高信度。与广泛的分类器对抗攻击文献相比,自动编码器的攻击大多尚未开发,可能是因为这些攻击难以执行和评估。不过,随着自动编码器作为压缩信息的强大方案[1],对它们的攻击可能至少与对分类器的攻击一样危险。在假设的例子中,攻击者可以向某人呈现文档(例如合同或协议),该文档在传输时变成不同的文档(图1)。

人工智能算法针对经典生成模型变分自动编码器的对抗攻击(首创)

人工智能算法针对经典生成模型变分自动编码器的对抗攻击贡献:评估生成模型是困难的[3],对于自动编码器重建没有明确的成功标准,因此也没有针对这种攻击。我们通过分析输入和输出在扭曲输入和逼近目标之间的不同妥协之间的差异来绕过这一难题。在本文中,我们提出了攻击自动编码器的方案,以及针对绕过成功标准需求的攻击的量化评估框架。我们比较了三种自编码器:简单变分自编码器(具有完全连接层),卷积变分自编码器和DRAW--最近提出的具有关注机制的递归变分自编码器[4]。我们证明后者更能抵抗这种攻击,而且它的反复和注意机制都会对抵抗产生贡献。我们在三个数据集(MNIST,SVHN和CelebA)中运行全部统计验证的实验,并显示我们的定量评估与对攻击的定性认知很好地相关。

人工智能算法针对经典生成模型变分自动编码器的对抗攻击对变分自动编码器的对抗攻击:在Szegedy等人的开创性论文之后。 [20],对神经网络分类器的敌对攻击引起了很多关注。这些攻击旨在对导致错误分类的输入(通常是图像)产生小的扭曲。攻击可以针对目标错误的类别(有针对性),或者瞄准任何类别以外的类别(非目标)[21,26]。先进的攻击产生基本上难以察觉的失真,使得分类器高度自信地预测错误的类别。

攻击自动编码器遵循一个平行过程:其目的是引起输入端的最小失真,从而破坏重建的输出(图3)。攻击可以旨在重建一个特定的错误输入(有针对性),或者仅仅是阻止重建(非目标)。在本文中,我们关注有针对性的攻击。与对分类器的攻击相比,对自动编码器的攻击要少得多。 Sabour等人。 [27],虽然仍在研究分类器,但引入了攻击深层神经网络内部层的概念。 Tabacof等人[28]引入了对自动编码器和变分自动编码器的攻击,表明它们是可能的,尽管比对分类器的攻击要困难得多。他们在MNIST和SVHN中都用KL分歧目标攻击了潜在的表示。他们提出了我们称之为畸变失真图的图表,并通过目视检查这些图表来评估攻击成功率。他们还表明,对于自动编码器和分类器,输入失真的强度与攻击的成功程度之间存在线性折衷。 Kos等人[2]随后进行了一项攻击VAE-GAN自动编码器的潜在表现和输出的工作。他们提出了三种攻击模式:在潜在表示之后攻击无关分类器,直接用A2目标攻击潜在表示,并使用VAE损失函数攻击解码器的输出。他们引入了一种量化的,但间接的,从愚弄无关分类器的成功推断的攻击评估。

攻击自动编码器比攻击分类器是一个更复杂的过程。在后者中,我们定位一个小输出向量,通常只关注该向量上的一个或两个值。在前者中,我们需要解决非常高维度的输出。

人工智能算法针对经典生成模型变分自动编码器的对抗攻击(首创)

针对自动编码器的有针对性攻击包括向原始输入添加(尽可能小)对抗失真,以使重建输出尽可能接近目标(图3)。对经过训练的模型进行攻击,模型的权重保持不变,同时最小化输入变化。正如方程式4所解释的,最明显的攻击也会使输出与目标之间的差异最小化。其中d是对抗性失真,x + d是对抗性输入,并且其输出重构ra是从za样本(潜在表示,其在变分自动编码器中是分布)重建的。 L和U是输入空间的边界,即L≤x≤U,∀x是有效的输编码器。 C是平衡接近目标和限制输入失真的正则化常数。它是目标,Δ是用于比较它与输出的距离,在我们的例子中是A2。不太明显的攻击最大限度地减少了在最小层攻击网络的潜在表示之间的差异。该攻击意味着解决方程式5中的优化。其中zt是目标的潜在表示,其他符号与公式4中的相同。这里,使用KL散度作为Δ。虽然它不是一个真实的度量标准,但它直观地度量了两个分布之间的(不对称)差异,因此它是潜在表示之间距离的代理。

人工智能算法针对经典生成模型变分自动编码器的对抗攻击数据和方法:数据集:我们采用三个数据集 - MNIST [29],SVHN [30]和CelebA [31] - 分别进行训练和测试。我们预计这些数据集将对自动编码器提出越来越多的挑战:MNIST具有手写的十进制单个数字,没有颜色,SVHN具有多种样式和颜色的多位数街道号码,CelebA具有彩色人脸。模型:我们评估了四种模型 - 具有完全连接层的变分自动编码器作为编码器/解码器(VAE);卷积层作为编码器和解卷积层作为解码器(CVAE)的变分自动编码器;经常使用的自动编码器DRAW [4]没有及其注意机制。根据文献[7],我们将像素可能性建模为MNIST中的独立Bernoullis,并将其作为SVHN和CelebA中的独立高斯。在所有模型中,潜在表示(方程4和5中的za和zt)是不相关的多变量正态分布,参数由编码器给出。

人工智能算法针对经典生成模型变分自动编码器的对抗攻击结果与分析:表1总结了主要的定量结果。我们显示了AUDDC的模型,数据集,时间步数(DRAW)和层次攻击以及边际统计的每种组合的平均值和95%置信区间。我们对潜在表示和图像对的大小进行了平均。值显示为100以减少视觉混乱。方差分析+事后Tukey发现在表中显示的所有因子水平对之间存在显着差异(所有p值<0.015)。与攻击分类器相比,攻击自动编码器相对困难,在分类器中,人眼可能无法看到失真。不同的模型对攻击提出了不同的挑战。特别是,特拉维夫对我们的攻击更具抵抗力 - 它的反复机制和关注机制在赋予这种抵抗力方面都很重要。数据集的选择也影响了挑战,SVHN是最容易攻击的,而CelebA是最难的。

人工智能算法针对经典生成模型变分自动编码器的对抗攻击(首创)

定性结果显示在图5中。尽管一些功能立即可见,但为了更好地了解细节,我们建议放大文章的数字版本。我们对VAE,CVAE,DRAW进行了对比,以及DRAW(均为16次)。我们为每个模型选择了最成功的攻击(VAE和CVAE的潜伏层,DRAW的输出层),相反的情况可用作补充材料。对于每个数据集,我们随机抽取了来自评估中使用的20个图像对。对于每个实验,单个图像对由51次攻击(正则化常数的不同值)组成。在每一种情况下,我们都选择了一种中途攻击,最接近畸变失真图水平轴上的平均值(如图4中的红点所示)。攻击自动编码器显然很困难:没有攻击能够很好地重建目标图像,而不会对输入造成立即可见的失真。同样,注意到DRAW的优越阻力:攻击未能达到目标,对输入产生大的扭曲,或者两者兼而有之。尽管我们只是试图进行有针对性的攻击,但是通过比较每组(b)到(e)第一和第三列:如果模型抵制攻击,那么这些列应该几乎相同。

人工智能算法针对经典生成模型变分自动编码器的对抗攻击讨论:攻击自动编码器仍然是一项艰巨的任务。没有任何攻击都能令人信服地重建目标,同时保持输入的扭曲不可察觉。尽管如此,并非所有的尝试都是平等的:有些模型比其他模型显得更有抵抗力AUDDC指标可以量化这种阻力,而无需为袭击建立明确的成功标准。我们尝试了其他指标(例如失真 - 失真图的回归斜率),但发现AUDDC与我们对攻击抵抗的主观认知更好地相关。

我们预计SVHN的攻击比MNIST更具挑战性,但定量或定性分析都没有证实这一点:最简单的数据集是SVHN,而CelebA更难(如预期的那样)。也许MNIST攻击的较小表面(28 28输入值)补偿了它的简单性,而CelebA的巨大复杂性补偿了其更大的攻击表面。我们的研究结果表明自动编码器内在质量与其抵抗攻击之间的相关性。分类器不存在这种相关性,其中最好的模型不一定不那么敏感[22]。究竟是什么让数据集或模型更难以攻击仍然是未来作品令人兴奋的开放性问题。有关敌对编码器对抗攻击的文献非常稀少。我们预计这会随着自动编码器的发展而改变,如数据传输和存储的压缩方案 - 这些方案的安全性将变得至关重要。

延伸阅读: