简而言之,AI 模型的定义是其自主做出决策或预测的能力,而不是模拟人类智能。最早成功的 AI 模型包括 20 世纪 50 年代初的跳棋和国际象棋游戏:这些模型使程序能够直接响应人类对手的动作,而不是遵循一系列预先设定的动作。
不同类型的 AI 模型更适合特定的任务或
领域
,它们的特定决策逻辑对于这些任务或领域是最有用或最相关的
。
复杂系统通常同时使用多个模型,使用整套学习方法,如
bagging
、
boosting
或
stacking
。
随着 AI 工具变得越来越复杂和多功能,需要越来越多的数据和越来越强大的算力来训练和执行它们,这带来了挑战。与之相应,旨在在单个领域中执行特定任务的系统正在让位于
基础模型
,这些模型在大型、未标记的数据集上进行预训练,并能够用于各种应用。这些多功能基础模型可以针对特定任务进行微调。
尽管这两个术语在这种情况下经常可以互换使用,但它们的含义并不完全相同。
-
算法
是通常用数学语言或伪代码描述的程序,应用于数据集以实现特定的功能或目的。
-
模型
是应用于数据集的算法的输出结果。
简单来说,AI 模型用于进行预测或决策,而算法则是 AI 模型的运行逻辑。
虽然所有机器学习模型都是 AI,但并非所有 AI 都涉及机器学习。最基本的 AI 模型是一系列 if-then-else 语句,其规则由数据科学家明确编程。此类模型也称为
规则引擎、专家系统
、
知识图谱
或
符号 AI
。
机器学习模型使用
统计 AI
,而不是符号 AI。基于规则的 AI 模型必须明确编程,而 ML 模型则通过将其数学框架应用于样本数据集来“训练”,该数据集的数据点作为模型未来真实世界预测的基础。
ML 模型技术通常可以分为三大类别:
监督学习
、
无监督学习
和
强化学习
。
-
监督学习
:
监督学习也称为“经典”机器学习,需要人类专家来标注训练数据。数据科学家训练图像识别模型识别狗和猫,他们必须将样本图像标注为“狗”或“猫”,并告知这些主要标注的关键特征(例如大小、形状或皮毛)。然后,该模型可以在训练期间,使用这些标注来推断“狗”和“猫”的典型视觉特征。
-
无监督学习
:
与监督学习技术不同,无监督学习不假设外部存在“正确”或“错误”答案,因此不需要标注。这些算法检测数据集中的固有模式,将数据点分组为
聚类
并提供预测。例如,Amazon 等电子商务企业使用无监督
关联
模型来支持推荐引擎。
-
强化学习
:
在强化学习中,模型通过系统地奖励正确输出(或惩罚错误输出),以反复试验的方式进行全面学习。强化模型用于为社交媒体建议、算法股票交易甚至自动驾驶汽车提供信息。
深度学习
是无监督学习的进一步演变,其
神经网络
结构试图模仿人脑。多层互连节点在一个称为前向传播的过程中逐步摄取数据、提取关键特征、识别关系并优化决策。另一个称为反向传播的过程则应用能够计算误差并相应地调整系统权重和偏差的模型。大多数先进的 AI 应用程序,例如支持现代
聊天机器人
的大语言模型 (LLM),都利用了深度学习。它需要大量的计算资源。
生成式
算法通常需要无监督学习,对数据点的
分布
进行建模,旨在预测给定数据点出现在特定空间中的
联合概率
P(x,y)。因此,生成式
计算机视觉
模型可以识别诸如“看起来像汽车的事物通常有四个轮子”或“眼睛不太可能出现在眉毛上方”之类的相关性。
这些预测可以为生成式模型认为极有可能的输出提供信息。例如,在文本数据上训练的生成式模型可以提供拼写和自动完成建议;在最复杂的层面上,它可以生成全新的文本。从本质上讲,当 LLM 输出文本时,它已经计算出该单词组装序列成为给出提示之回应的概率很高。
生成式模型的其他常见用例包括图像合成、作曲、风格转换和语言翻译。
生成式模型的示例包括:
-
扩散模型:
扩散模型会逐渐向训练数据中添加高斯噪声,直到无法识别为止,然后学习反向“去噪”过程,从随机种子噪声中合成输出(通常是图像)。
-
变分自编码器 (VAE):
VAE 由压缩输入数据的编码器和学习逆向处理并映射可能数据分布的解码器组成。
-
转换器模型:
转换器模型使用称为“注意力”或“自注意力”的数学方法来确定一系列数据中的不同元素是如何相互影响的。OpenAI 的 Chat-GPT 中的 "GPT" 代表“生成式预训练转换器”。
判别
算法通常需要监督学习,它对数据类别之间的边界(或“决策边界”)进行建模,旨在预测给定数据点 (x) 属于某个类别 (y) 的
条件概率
P(y|x)。判别式计算机视觉模型可以通过识别一些关键差异(例如“如果没有轮子,就不是汽车”)来学习“汽车”和“非汽车”之间的区别,从而可以忽略生成式模型必须考虑的许多相关性。因此,判别式模型往往需要较少的算力。
判别式模型天然地适合情感分析等分类任务,但它们还有很多用途。例如,
决策树
和
随机森林
模型将复杂的决策过程分解为一系列节点,其中每个“叶子”代表一个潜在的分类决策。
对于判别式模型和生成式模型,虽然在某些实际用例中,一种模型的
性能通常优于
另一种,但许多任务都可以通过其中任何一种模型来完成。例如,判别式模型在自然语言处理 (NLP) 中有很多用途,并且在机器翻译(需要生成翻译文本)等任务中通常比
生成式 AI
表现更好。
同样,生成式模型也可以利用贝叶斯定理进行分类。生成式模型不会像判别式模型那样确定实例位于决策边界的哪一侧,而是可以确定每个类生成实例的概率,并选择概率较高者。
许多 AI 系统同时采用这两种模型。例如,在
生成式对抗网络
中,使用生成式模型生成样本数据,然后利用判别式模型确定该数据是“真”还是“假”。判别式模型的输出用于训练生成式模型,直到判别器无法再辨别“假”的生成数据。
对模型进行分类的另一种方法是根据其所处理任务的性质。大多数经典的 AI 模型算法要么执行
分类
,要么执行
回归
。有些模型同时适用于这两种功能,并且大多数基础模型都利用这两种功能。
有时,这个术语可能会令人困惑。例如,
逻辑回归
是一种用于分类的判别式模型。
分类模型用于预测
离散
值。因此,它们主要用于确定适当的标签或进行分类。这可以是
二元
分类(如“是或否”、“接受或拒绝”)或
多类
分类(如推荐产品 A、B、C 或 D 的推荐引擎)。
分类算法用途广泛,从简单分类到深度学习网络中自动提取特征,再到医疗保健进步(如放射学中的诊断图像分类)。
常见示例包括:
-
朴素贝叶斯
:一种常用于垃圾邮件过滤和文档分类的生成式监督学习算法。
-
线性判别式分析
:用于解决影响分类的多个特征之间的矛盾重叠问题。
-
逻辑回归
:预测连续概率,然后将其用作分类范围的代理。
机器学习中的“学习”是通过在样本数据集上训练模型来实现的。然后将这些样本数据集中辨别的概率趋势和相关性应用于系统功能的性能。
在监督和半监督学习中,这些训练数据必须由数据科学家进行审慎的标记,以优化结果。如果进行适当的特征提取,监督式学习总体上需要的训练数据量低于无监督式学习。
理想情况下,ML 模型根据真实世界的数据进行训练。直观地说,这最能确保模型反映它旨在分析或复制的真实情况。但仅仅依赖真实世界的数据并不总是可行、实用或最佳。
模型的参数越多,训练时所需的数据就越多。随着深度学习模型规模的不断扩大,获取这些数据变得越来越困难。这在 LLM 中尤为明显:Open-AI 的 GPT-3 和开源 BLOOM 都有超过 1,750 亿个参数。
尽管使用公开数据很方便,但它也会带来监管问题,比如数据必须匿名化,以及实际问题。例如,实用社交媒体话题组训练的语言模型可能会“学习”习惯或不准确性,因此对于企业使用来说并不理想。
合成数据
提供了另一种解决方案:使用较小的真实数据集生成与原始数据非常相似的训练数据,从而避免隐私问题。
基础模型
也称为基模型或预训练模型,是
在大规模数据集上预训练的深度学习模型
,用于学习一般特征和模式。它们可以作为微调或适应更具体的 AI 应用的起点。
开发人员无需从头开始构建模型,而是可以更改神经网络层、调整参数或调整架构,以满足特定领域的需求。这增加了经过验证的大模型的知识和专业知识的广度和深度,从而节省了模型训练的大量时间和资源。因此,基础模型可以加快 AI 系统的开发和部署。
针对专门任务微调预训练模型最近已经让位于
提示微调
技术,该技术为模型引入前端提示,以引导模型进行所需类型的决策或预测。
根据麻省理工学院 - IBM Watson AI 实验室联合主任 David Cox 的说法,重新部署经过训练的深度学习模型(而不是训练或重新训练新模型)可以将计算机和能源消耗减少 1000 倍以上,从而节省大量成本
1
。