Vision Transformer和MLP-Mixer在对抗鲁棒性方面与CNN的比较
本文探讨了基于Transformer的网络架构如Vision Transformer(ViT)的鲁棒性问题,并针对输入扰动和模型扰动等多个方面进行了实验比较,发现在使用足够的数据量进行预训练的情况下,ViT模型的鲁棒性至少和ResNet的对应模型一样。同时,实验还发现虽然后面的层激活之间高度相关,但每一层都对分类起到了重要作用。
Mar, 2021
本文对视觉Transformer(ViT)的抗干扰性进行了全面的研究,发现相比于MLP-Mixer和卷积神经网络(CNNs),ViTs拥有更好的对抗性鲁棒性。经过频率分析和特征可视化,发现ViTs所学习的特征中包含的高频模式较少,这有助于解释为什么ViTs对高频扰动较不敏感,并且现代CNN设计可以帮助填补ViTs和CNNs表现的差距。
Mar, 2021
本文旨在研究Vision Transformer对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的ImageNet数据集上与SOTA卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释ViT为什么是更加稳健的学习器。
May, 2021
本文针对Vision Transformer在对抗攻击下的稳健性问题进行了探究,实验证明Vanilla ViTs或Hybrid-ViTs的对抗攻击鲁棒性比CNNs更强。通过提供特征图、注意力图等分析,对注意力模型进行了深入理解。
Jun, 2021
本研究探讨了视觉transformer模型、MLP模型和ResNet-50模型的鲁棒性,发现视觉transformer模型在面临数据破坏时比ResNet-50模型和MLP-Mixer模型更具鲁棒性,并且拥有更强的形状偏差。
Jun, 2021
该论文基于自然污染和对抗攻击的影响,研究了视觉变压器(ViT)和卷积神经网络(CNN)在图像分类中的表现,发现ViTs对自然污染更具鲁棒性,但易受对抗性攻击,然后提出了一种简单的基于温度缩放的方法来提高ViT对对抗性攻击的鲁棒性。
Nov, 2021
本论文探讨了ViTs和CNNs在面对各种对抗攻击时的鲁棒性及其背后的因素,提出了一种名为Patch-Fool的攻击框架,通过对单个patch进行一系列attention-aware优化技术的攻击来愚弄其self-attention机制,并发现在Patch-Fool攻击下,ViTs不一定比CNNs更具鲁棒性。
Mar, 2022
本文通过理论证明和实证分析,探讨了Vision Transformers模型的稳健性,证实其在抵抗自然干扰和强攻击方面优于卷积神经网络,并且证明了模型的Lipschitz连续性,进一步分析了模型的关键因素和结构,发现Multi-head Self-Attention在抵抗弱攻击方面有所贡献,但在抵抗强攻击方面实际上会削弱模型的稳健性。
Aug, 2022
本文研究使用Vision Transformers架构在对抗训练中对抗外部攻击的鲁棒性问题,并使用ImageNet数据集的子集进行严格的消融研究,找到了一种改进后的训练方法,可以在不使用强数据增强的情况下提高模型的性能和识别鲁棒性。
Sep, 2022
通过增加高频结构稳定偏差的比例,我们提出了一种新型结构,名为Robust Bias Transformer-based Structure (RBFormer),在CIFAR-10和ImageNet-1k上分别实现了显著的+16.12%和+5.04%的改进,表现出对抗性鲁棒性上卓越的优势。
Sep, 2023