使用 DINO 训练的 Vision Transformers 中的对抗攻击和防御探索
本文研究了 Vision Transformers 在对抗性样本方面的鲁棒性,分析了其与 CNNs 在攻击和安全方面的不同,并提出了一个简单的混合防御方案以提高鲁棒性和准确性。
Mar, 2021
本文首次提出了一种自我监督的对抗训练机制,在输入空间中防御对抗性攻击,并提供极大的鲁棒性,可以作为即插即用的解决方案来保护各种视觉系统,包括分类、分割和检测,同时极大降低了未知攻击的成功率。
Jun, 2020
本研究通过攻击深度特征表示来操纵开放世界感知模型,以解决封闭集下游任务,并在白盒、黑盒和模型类型迁移的情况下展示攻击的有效性,旨在识别这些模型的关键敌对弱点,以提高未来设计的鲁棒性。
Aug, 2023
本研究利用 Vision Transformer (ViT) 架构并结合 DINO 框架,对面部反欺诈任务进行了 Fine-tuning,与传统的 CNN 模型 EfficientNet b2 进行了性能比较。研究结果显示,ViT 模型在准确性和对不同欺诈方法的抵抗性方面优于 CNN 模型,进一步推动了生物识别安全领域的重要进展。
Jun, 2024
使用视觉变换器 (ViT) 的加密模型的随机集合,提出了一种增强对白盒和黑盒攻击鲁棒性的新方法,在 CIFAR-10 和 ImageNet 数据集的图像分类任务中,该方法不仅对抗白盒攻击,而且对抗黑盒攻击,并在 RobustBench 标准基准中验证了其在干净准确性和鲁棒准确性方面优于传统防御。
Feb, 2024
本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络(ConvNets)在检测各种类型的深度伪造方面的有效性,重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调,在利用自监督学习和变换器进行深度伪造检测时,我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性,且同时需要较少的计算资源。
May, 2024
本文对视觉 Transformer(ViT)的抗干扰性进行了全面的研究,发现相比于 MLP-Mixer 和卷积神经网络(CNNs),ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化,发现 ViTs 所学习的特征中包含的高频模式较少,这有助于解释为什么 ViTs 对高频扰动较不敏感,并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。
Mar, 2021
本文针对 Vision Transformer 在对抗攻击下的稳健性问题进行了探究,实验证明 Vanilla ViTs 或 Hybrid-ViTs 的对抗攻击鲁棒性比 CNNs 更强。通过提供特征图、注意力图等分析,对注意力模型进行了深入理解。
Jun, 2021
本文总结了最新的对抗攻击技术,利用现代防御策略对其进行分类,并概述视觉转换进展、反对抗设置中使用的数据集及度量标准,并在不同攻击下比较最新成果,最终确定了该领域的开放问题。
May, 2023
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021