添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

ChatGPT:RLHF(从人类反馈(或偏好)中强化学习)和 扩散模型

RLHF:

最近,从人类反馈(或偏好)中强化学习(RLHF(或RLHP)已成为人工智能工具包的一个巨大补充。这一概念已经在2017年的论文《 从人类偏好中深度强化学习 》中提出。最近,它被应用于ChatGPT和类似的对话代理,如BlenderBot3或Sparrow。这个想法很简单:一旦语言模型被预先训练,我们就可以对对话生成不同的响应,并让人类对结果进行排序。在强化学习的背景下,我们可以使用这些排名(又名偏好或反馈)来训练奖励。你可以在 Huggingface Weights and Bias 的这两篇精彩文章中读到更多内容。

From HuggingFace’s RLHF blog post.

扩散模型:

扩散模型已经成为图像生成中的新SOTA,显然将之前的方法如生成对抗网络(GANs)推到了一边。什么是扩散模型?它们是一类潜变量模型训练的变分推断。在实践中,这意味着我们训练一个深度神经网络去噪一些噪声函数模糊的图像。以这种方式训练的网络实际上是在学习这些图像所代表的潜在空间。

From “Diffusion Models: A Comprehensive Survey of Methods and Applications”

扩散模型与其他生成模型有关系,如著名的 生成对抗网络(GAN) ,它们在许多应用中大多被取代,特别是与(去噪)自动编码器。有些 作者 甚至会说扩散模型只是自动编码器的一个特定实例。然而,他们也承认,微小的差异确实改变了他们的应用,从自动考虑器的潜在表示到扩散模型的纯粹生成性质。

翻译来源: Transformer models: an introduction and catalog — 2023 Edition - AI, software, tech, and people, not in that order… by X (amatriain.net)

RLHF最详细的解释:

Illustrating Reinforcement Learning from Human Feedback (RLHF) (huggingface.co)

编辑于 2023-02-16 15:10 ・IP 属地北京