微软研究员联合Yoshua Bengio推出AIGC数据生成学习范式Regeneration Learning

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

为什么是Regeneration Learning？

什么是数据理解与数据生成？

机器学习中一类典型的任务是学习一个从源数据 X 到目标数据 Y 的映射，比如在图像分类中 X 是图像而 Y 是类别标签，在文本到语音合成中 X 是文本而 Y 是语音。根据 X 和 Y 含有信息量的不同，可以将这种映射分成数据理解（Data Understanding）、数据生成（Data Generation）以及两者兼有的任务。图1显示了这三种任务以及 X 和 Y 含有的相对信息。

图1：机器学习中常见的三种任务类型以及 X 和 Y 含有的相对信息量

X 和 Y 的信息差异导致了采用不同的方法来解决不同的任务：

对于数据理解任务，X 通常比较高维、复杂并且比 Y 含有更多的信息，所以任务的核心是从 X 学习抽象表征来预测 Y。因此，深度学习中非常火热的表征学习（Representation Learning，比如基于自监督学习的大规模预训练）适合处理这类任务。

对于数据生成任务，Y 通常比较高维、复杂并且比 X 含有更多的信息，所以任务的核心是刻画 Y 的分布以及从 X 生成 Y。

对于数据理解和生成兼有的任务，它们需要分别处理两者的问题。

数据生成任务面临的独特挑战

数据生成任务面临独特的挑战包括：

因为 Y 含有很多 X 不含有的信息，生成模型面临严重的一对多映射（One-to-Many Mapping）问题，增加了学习难度。比如在图像生成中，类别标签“狗”对应不同的狗的图片，如果没有合理地学习这种一对多的映射，会导致训练集上出现过拟合，在测试集上泛化性很差。

对于一些生成任务（比如文本到语音合成，语音到说话人脸生成等），X 和 Y 的信息量相当，会有两种问题，一种是 X 到 Y 的映射不是一一对应，会面临上面提到的一对多映射问题，另一种是 X 和 Y 含有虚假关联（Spurious Correlation，比如在语音到说话人脸生成中，输入语音的音色和目标说话人脸视频中的头部姿态没有太大关联关系），会导致模型学习到虚假映射出现过拟合。

为什么需要Regeneration Learning

深度生成模型（比如对抗生成网络 GAN、变分自编码器 VAE、自回归模型 AR、标准化流模型 Flow、扩散模型 Diffusion 等）在数据生成任务上取得了非常大的进展，在理想情况下可以拟合任何数据分布以实现复杂的数据生成。但是，在实际情况中，由于数据映射太复杂，计算代价太大以及数据稀疏性问题等，它们不能很好地拟合复杂的数据分布以及一对多映射和虚假映射问题。类比于数据理解任务，尽管强大的模型，比如 Transformer 已经取得了不错的效果，但是表征学习（近年来的大规模自监督学习比如预训练）还是能大大提升性能。数据生成任务也迫切需要一个类似于表征学习的范式来指导建模。

因此，我们针对数据生成任务提出了 Regeneration Learning 学习范式。相比于直接从 X 生成 Y，Regeneration Learning 先从 X 生成一个目标数据的抽象表征 Y’，然后再从 Y’ 生成 Y。这样做有两点好处：

X→Y’ 相比于 X→Y 的一对多映射和虚假映射问题会减轻；

Y’→Y 的映射可以通过自监督学习利用大规模的无标注数据进行预训练。

Regeneration Learning的形式

Regeneration Learning 的基本形式/Regeneration Learning 的步骤

Regeneration Learning 一般需要三步，包括：

将 Y 转化成抽象表征 Y’。转换方法大体上可分为显式和隐式两种，如表1中 Basic Formulation 所示：显式转换包括数学变换（比如傅里叶变换，小波变换），模态转换（比如语音文本处理中使用的字形到音形的变换），数据分析挖掘（比如从音乐数据抽取音乐特征或者从人脸图片中抽取 3D 表征），下采样（比如将256*256图片下采样到64*64图片）等；隐式转换，比如通过端到端学习抽取中间表征（一些常用的方法包括变分自编码器 VAE，量化自编码器 VQ-VAE 和 VQ-GAN，基于扩散模型的自编码器 Diffusion-AE）。

表1：Y→Y’ 转换的不同方法

步骤2：从 X 生成 Y’。可以使用任何生成模型或者转换方法，以方便做 X→Y’ 映射。

步骤3：从 Y’ 生成 Y。通常采用自监督学习，如果从 Y 转化为 Y’ 采用的是隐式转换学习比如变分自编码器，那可以使用学习到的解码器来从 Y’ 生成 Y。

如表1中 Extended Formulation 所示，一些方法可以看成是 Regeneration Learning 的扩展版本，比如自回归模型 AR，扩散模型 Diffusion，以及迭代式的非自回归模型等。在自回归模型中，Y_{ < t } 可以看成是 Y_{ < t+1 } 的简化表征，在 Diffusion 模型中，Y_{t+1} 可以看成是 Y_{t} 的简化表征，和基础版的 Regeneration Learning 不同的是，它们都需要多步生成而不是两步生成。

Regeneration Learning 和 Representation Learning 的关系

图2：Regeneration Learning 和 Representation Learning 的对比

如图2所示，Regeneration Learning 可以看成是传统的 Representation Learning 在数据生成任务中的对应：

Regeneration Learning 处理目标数据 Y 的抽象表征 Y’ 来帮助生成，而传统的 Representation Learning 处理源数据 X 的抽象表征 X’ 来帮助理解；

Regeneration Learning 中的 Y’→Y 和 Representation Learning 中的 X→X’ 都可以通过自监督的方式学习（比如大规模预训练）；

Regeneration Learning 中的 X→Y’ 和 Representation Learning 中的 X’→Y 都比原来的 X→Y 更加简单。

Regeneration Learning的方法研究以及实际应用

Regeneration Learning 的研究机会

Regeneration Learning 作为一种面向数据生成的学习范式，有比较多的研究问题。如表2所示，包括如何从 Y 获取 Y’ 以及如何更好地学习 X→Y’ 以及 Y’→Y 等，详细信息可参见论文。

表2：Regeneration Learning 的研究问题

Regeneration Learning 在数据生成任务中的应用条件

Regeneration Learning 在语音、音频、音乐、图像、视频、文本等生成中有着广泛的应用，包括文本到语音合成，语音到文本识别，歌词/视频到旋律生成，语音到说话人脸生成，图像/视频/音频生成等，如表3所示。

表3：一些利用 Regeneration Learning 的数据生成任务

总的来讲，只要满足以下几点要求，都可以使用 Regeneration Learning：

目标数据太高维复杂；

X 和 Y 有比较复杂的映射关系，比如一对多映射和虚假映射；

X 和 Y 缺少足够的配对数据。

最近流行的数据生成模型及其在 Regeneration Learning 范式下的表示

下面简单梳理了近年来在 AIGC 内容生成领域的一些典型的模型方法，比如文本到图像生成模型 DALL-E 1、DALL-E 2 和 Stable Diffusion，文本到音频生成模型 AudioLM 和 AudioGen，文本到音乐生成模型 MusicLM，文本生成模型 GPT-3/ChatGPT，它们都可以被看作是采用了 Regeneration Learning 类似的思想，如表4所示。

表4：最近比较受关注的数据生成模型及其在 Regeneration Learning 范式下的表示

机器学习/深度学习依赖于学习范式指导处理各种学习问题，例如传统的机器学习，包括有监督学习、无监督学习、强化学习等学习范式。在深度学习中，有针对数据理解任务的表征学习。微软研究员们和深度学习/表征学习先驱 Yoshua Bengio 一起面向数据生成任务提出了针对性的学习范式 Regeneration Learning，希望能指导解决数据生成任务中的各种问题。微软亚洲研究院机器学习组的研究员们将 Regeneration Learning 的思想应用到各类生成任务中，比如文本到语音合成，歌词到旋律生成，语音到说话人脸生成等，详情请见：https://ai-creation.github.io/。

本篇文章介绍了微软亚洲研究院机器学习组在 AIGC 数据生成方面的研究范式工作，首先指出了数据生成面临的挑战以及新的学习范式的必要性，然后介绍了 Regeneration Learning 的具体形式、与 Representation Learning 的关系、当前流行的数据生成模型在该范式下的表示，以及 Regeneration Learning 潜在的研究机会。希望 Regeneration Learning 能够很好地指导解决数据生成任务中的各种问题。在这一研究方向上，机器学习组还开展了模型结构和建模方法以及具体的生成任务方面的研究，欢迎继续关注我们的其他文章！

谭旭，微软亚洲研究院高级研究员

研究领域为深度学习及 AI 内容生成。发表论文100余篇，研究工作如预训练语言模型 MASS、语音合成模型 FastSpeech、AI 音乐项目 Muzic 受到业界关注，多项成果应用于微软产品中。研究主页：https://ai-creation.github.io/