Dimba: Transformer-Mamba 扩散模型
通过设计一种多模态文本到图像扩散模型(DiffBlender),可以同时引入多种不同类型的细节表达方式,如草图、盒子和风格嵌入等,不需要更改现有模型的参数,从而在单个模型中实现条件生成,并且通过量化和定性比较,将多模态生成的标准提高到了新的水平。
May, 2023
本文介绍了一种基于 Mixture-of-Experts 的文本条件化图像扩散模型(RAPHAEL),其在图像质量和美感上优于现有的一些先进模型(包括 Stable Diffusion、ERNIE-ViLG 2.0、DeepFloyd 和 DALL-E 2)
May, 2023
我们展示了一种以文本作为强大的跨模态接口的方法,通过将图像表示为文本,利用自然语言的可解释性和灵活性,我们使用一个自动编码器,将输入图像转换为文本,并通过固定的文本到图像扩散解码器进行重构,该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性,使其可以轻松地被一般的文本到图像工具和 LLMs 接收,并可用于多样化的多模态任务。
Nov, 2023
本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer,通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性,并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型,后者在 256x256 基准测试上实现了先进的 FID (2.27)。
Dec, 2022
我们提出了 TerDiT,一种针对具有 transformer 的三态扩散模型的量化感知训练(QAT)和有效部署方案,致力于探索大规模 DiT 模型的高效部署策略,展示了从头开始训练极低比特扩散变压器模型的可行性,同时保持与全精度模型相比有竞争力的图像生成能力。
May, 2024
近年来,文本到图像(T2I)模型取得了显著进展并广泛应用,然而这一进展无意中开辟了潜在的滥用途径,尤其是生成不适宜或不安全的内容。我们的工作引入了 MMA-Diffusion,这是一个对 T2I 模型安全性构成严重和真实威胁的框架,通过有效绕过开源模型和商业在线服务的当前防御措施。与以往的方法不同,MMA-Diffusion 利用文本和视觉模式来绕过提示过滤器和事后安全检查器等保护措施,从而揭示现有防御机制的弱点。
Nov, 2023
本研究扩展现有单流程扩散管线到多任务多模态网络,通过可共享、可交换的多流程跨模式模块,将文本到图像、图像到文本等多流和变异处理统一在一个模型中,实现了风格和语义的解耦、双重和多重上下文混合等并发处理。实验证明,该框架性能优越,可启发基于扩散的通用人工智能研究。
Nov, 2022
通过改进扩散模型以生成可控高质量的深度伪造图像,并使用 Dreambooth 训练提供更真实和个性化的输出图像,该研究展示了以惊人的逼真度创建虚假的视觉内容,并可作为权力政治人物会面的可信证据。
Sep, 2023
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
通过引入一个缩放因子,适应各种尺寸和长宽比的图像,在保持视觉保真度的同时,改善了低分辨率图像上目标不完整和高分辨率图像上重复表示的问题。
Jun, 2023