ICML 2023 | 你的AI被黑客攻击了吗？如何用期望扰动分数揭秘对抗数据？_鲟曦研习社

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

一、Motivations

最近，一些方法开始利用扩散模型（Diffusion Model）来净化（purify）对抗样本。Yoon et al[1]通过逐步移除对抗样本或自然样本中的噪声达到净化的目的。在净化过程中（ purification process），通过净化后的自然样本与净化后的对抗样本的score范数确定一个阈值停止对样本净化，防止过度净化对样本造成损坏。他们从经验上发现，在净化过程中自然样本通常比对抗样本拥有更低的score范数。

直观来看

本文通过实验验证了这一结果，在上图中，同一净化时刻（timestep），大多数自然样本的score范数始终低于对抗样本。然而，实验结果同样揭示出单个样本的score存在问题：在整个净化过程中，自然样本与对抗样本的score范数分布始终存在重合，且自然样本与对抗样本的score范数重合程度对净化过程的timestep十分敏感。

上述问题说明，单个样本的score所包含的信息并不足以完全分辨自然样本与对抗样本，会导致两类样本分布差异波动极大，难以实现高性能的对抗检测。

二、方法与分析

本文考虑利用多级扰动来获取单个样本的更多信息，以次构造了一个新的统计量： 期望扰动分数（EPS） 。基于该统计量，本文提出一种对抗检测方法，称为EPS-AD。方法框架如下图所示：

这里首先给出期望扰动分数的定义，并理论推导出自然样本和对抗样本EPS的分布差异。基于EPS，本文利用MMD（Maximum Mean Discrepancy）探索了一种通用的检测机制，称为EPS-AD。最后，以高斯核的MMD（Gaussian Kernel MMD）为例，给出对抗检测方法EPS-AD有效性的理论依据。

2.1 期望扰动分数（EPS）

上述实验表明，由于单个样本的score所包含的信息不足，自然样本与对抗样本之间score的分布差异会随扰动过程出现明显波动，不利于对抗检测性能的提高。对此， 本文考虑通过加入多级扰动来获得单个样本的多个观测，并计算这些观测在相应扰动下score的期望（即EPS），从而获得一个样本充足的信息。

四、总结与未来工作

本文提出了一种新的统计量：期望扰动分数（EPS），来获取单个样本丰富的的多个观测信息，并将其作为区分自然与对抗样本的有效度量。基于EPS，文中提出了一个新颖的对抗检测方法EPS-AD，并通过理论分析与实验证明了所提方法的优异性能。

与其他利用对抗样本在神经网络中的隐层特征来训练检测器的方法不同，EPS-AD通过建模自然样本与对抗样本的分布差异实现样本的区分，这使得模型在面对不同攻击方式、攻击强度和跨数据集的对抗样本时表现出惊人的鲁棒性和一致优异的性能。

一个可能的concern是，EPS-AD的推理阶段需要对样本进行多级的扩散过程，尤其是在高分辨率样本（e.g. ImageNet）时会花费较长的时间。在本文的实验部分也对此进行了探究，发现通过降低输入样本的采样精度或是选择更短的扩散时长可以显著的减少推理时间，但却需要对检测精度做出相应的妥协。在未来工作中，可以考虑如何简化扩散过程的构造，进一步缩减方法的推理时间，使得该方法能够用于实时检测。

Reference

[1] Adversarial Purification with Score-based Generative Models. ICML 2021.

作者：张书海