基于扩散模型的无数据黑盒攻击
介绍了一种基于先验指导的随机无梯度(P-RFF)攻击方法,它利用了传输先验和查询信息,需要的查询次数更少、攻击黑盒模型的成功率更高,相较于现有最先进的方法。
Jun, 2019
本文提出了一种基于扩散链的新型生成对抗网络——Diffusion-GAN,该网络通过将高斯分布的“实例噪声”注入到鉴别器以增加其稳定性,同时通过鉴别器的时步依赖策略给生成器提供一致有效的指导,从而使其在多个数据集上实现更高效、更稳定和更真实的图像生成能力。
Jun, 2022
论文介绍一种新型的对抗攻击方法 DiffAttack,该方法利用扩散模型的生成和判别能力,在隐空间中生成人类感知不到的、带有语义线索的扰动,并采用内容保持结构。考虑到攻击的传递性,DiffAttack 进一步“欺骗”扩散模型,以分散其注意力,达到更好的转移性能,实验结果表明,DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。
May, 2023
本文介绍了利用预训练扩散模型在数据自由的情况下对其他生成模型进行学习转移的Diff-Instruct框架,其中包括深入探讨的新的KL发散-Integral Kullback-Leibler(IKL)分散演化过程以及与已有方法如DreamFusion和生成对抗性训练的非平凡关系,并在两种情况下进行了实验以展示Diff-Instruct的效力和普适性。
May, 2023
通过发现深度神经网络模型仍能保持预测能力,即使有意删除其对人类视觉系统至关重要的稳健特征,我们识别出了一种名为“自然去噪扩散攻击(NDD)”的新型攻击。该攻击能够以低成本并且与模型无关、可转换为对抗性攻击,并利用扩散模型中的自然攻击能力。我们构建了一个大规模数据集“自然去噪扩散攻击(NDDA)数据集”,来系统评估最新的文本-图像扩散模型的自然攻击能力的风险。我们通过回答6个研究问题来评估自然攻击能力,并通过用户研究证实了NDD攻击的有效性,发现NDD攻击能够实现88%的检测率,同时对93%的被试者具有隐蔽性。我们还发现,扩散模型嵌入的非稳健特征对于自然攻击能力起到了贡献作用。为了证明攻击的模型无关性和可转换性,我们对一辆自动驾驶汽车进行了NDD攻击,发现73%的物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够帮助社区意识到扩散模型的风险,并促进更多关于强大深度神经网络模型的研究。
Aug, 2023
通过引入全面的理论框架并提出新的对抗性攻击方法,本文对基于LDM的对抗性攻击进行了深入研究,通过严格的实验,证明该方法优于现有攻击方法,并能在不同的基于LDM的少样本生成流程中进行泛化,成为在新一代强大生成模型中可为暴露于数据隐私和安全风险中的人们提供更强大和高效的保护工具。
Oct, 2023
在本文中,我们提出了一种新的黑盒攻击策略,条件扩散模型攻击(CDMA),用于在受到查询限制的情况下提高生成对抗性样本的查询效率。CDMA通过直接条件变换生成合格的对抗性样本,可以显著减少所需查询的数量。CDMA通过采用条件去噪扩散概率模型作为转换器来学习从原始样本到对抗性样本的转换,以确保噪声扰动在各种防御策略下的平稳发展。在三个基准数据集上与九种最新的黑盒攻击方法进行比较后,我们展示了CDMA的有效性和高效性。平均而言,CDMA可以将查询次数减少到几次;在大多数情况下,查询次数只有一次。我们还展示了CDMA在所有数据集上的非定向攻击成功率均达到99%以上,以及在CIFAR-10上的定向攻击,扰动预算为ε = 16。
Oct, 2023
该研究探讨了使用Stable Diffusion生成的数据来增强对抗攻击的传递性,提出了一种基于Stable Diffusion的新型攻击方法,并提供了一个快速变体,通过实验证明该方法在对抗性传递性方面优于现有方法,并且与现有的基于传递的攻击方法相兼容。
Nov, 2023
借助扩散模型的合成能力,我们提出了基于扩散的模型反演攻击方法(Diff-MI),用于从目标分类器的训练集中重构私密图像,以平衡攻击准确性和合成质量。通过预训练和微调学习范式,结合扩散先验和目标知识的迭代图像重构方法,以及改进的最大边界损失函数,Diff-MI显著提高了生成质量,同时在各种数据集和模型上保持了竞争性的攻击准确性。
Jul, 2024