031_SSS_Imagic Text-Based Real Image Editing with Diffusion Models_imagic: text-based real image edi_link管理

添加链接

注册登录

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

打酱油的青蛙 · Exchange Server中) 谓词 ...· 3 周前 ·

打酱油的荒野 · 2015杭州初中排名- 杭州本地宝· 3 月前 ·

打酱油的木瓜 · 中国遗传学会遗传诊断分会第二届委员会第一次全 ...· 4 月前 ·

想表白的海龟 · 主动终止空闲事务_云数据库 RDS· 7 月前 ·

痴情的帽子 · 贾广建作品多少钱一平尺？2020年贾广建作品 ...· 9 月前 ·

阳光的蟠桃 · 使用vscode在vue项目中重命名文件选择 ...· 10 月前 ·

Imagic: Text-Based Real Image Editing with Diffusion Models

1. Introduction

本文提出了一种新的基于Diffusion的方法称作Imagic，可以实现复杂的基于文本的图像编辑。与之前的方法不同，本文的方法只需要一张输入图像和一个目标文本，并且可以直接用于真实的图像而不需要额外的输入比如mask。

传统方法的缺点

受限于特定的编辑方式比如添加一个物体，风格迁移。
只能处理特定类型的图片或者生成的图片。
需要额外的输入，比如mask，相同物体的多张图片，或者对于原图的文本描述

本文的主要贡献

提出了Imagic，第一个基于文本的图像语义编辑方法，可以对于单张输入图像实现复杂的非刚性的编辑，同时保持其总体的结构和组成。
本文展示了两个文本嵌入序列之间具有语义意义的线性插值，揭示了文本到图像扩散模型的强大组合能力。
本文提出了TEdBench，一种新的具有挑战性的复杂图像编辑benchmark，可以同于比较不同的基于文本的图像编辑方法。

2. Methodology

类似于基于GAN的图像编辑方法，本文首先找到有意义的表示，把这些表示提供给模型可以生成与输入图像相似的图像。然后微调生成模型以更好地重建输入图像，最后操纵隐式表示以获得编辑结果。

具体分为三个步骤：
对于一个预训练好的文本-图像Diffusion模型

第一步，优化文本embedding以找到与目标文本embedding相近的与给定图像最匹配的文本嵌入。
第二步，微调Diffusion模型使其更匹配输入的图像
第三步，在优化后的文本embedding和目标文本embedding之间进行线性插值，从而找到既能与原图像有较高的保真度，又与目标文本描述一致的图像。

Text embedding optimization

由于本文的方法没有原图像对应的文本，而只有目标文本，因此需要先得到原图像的文本embedding。具体的做法是，在第一阶段，首先通过text encoder得到目标文本的target embedding

3. Experiments

Implementation details

具体参数不罗列。本文的实验第一部分训练了100step，第二步训练了1500步，同样对于辅助模型也训练了1500步。

TEdBench

本文收集了100对输入图像和目标文本，作为benchmark

Albation Study

对于线性插值的参数

推荐文章

打酱油的青蛙 · Exchange Server中) 谓词 (邮件流规则条件和异常 | Microsoft Learn

3 周前

打酱油的荒野 · 2015杭州初中排名- 杭州本地宝

3 月前

打酱油的木瓜 · 中国遗传学会遗传诊断分会第二届委员会第一次全体委员会议召开----中国遗传学会

4 月前

想表白的海龟 · 主动终止空闲事务_云数据库 RDS

7 月前

痴情的帽子 · 贾广建作品多少钱一平尺？2020年贾广建作品价格趋势_百科TA说

9 月前

阳光的蟠桃 · 使用vscode在vue项目中重命名文件选择了更新导入路径仍有部分导入路径没有更新_vscode修改文件名同时修改文件引入-CSDN博客

10 月前

Link管理 · 51好读 · Sov5搜索 · 小百科

link管理 - 链接快照平台