垂直领域大模型微调最全指南_垂域大模型

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

2.基座模型选择

在垂直领域LLM微调时选择合适的基座模型是十分重要的。垂直领域（纵深领域）一般都是建立在通识知识之上的，基座模型选择的好环会对后期微调模型的好坏产生深远的影响。模型选择的不好就相当于是让一个本科阶段知识都没有学的学生直接跨入到研究生阶段，学起来不仅会很吃力（成本），是很难学会的（结果）。在选择基座模型进行垂直领域微调时，需要综合考虑模型性能、规模、社区支持与文档、可扩展性与兼容性、训练数据的适用性、训练与推理效率、安全以及成本等多个因素。一般来说需要可以考虑以下原则：

1、首先选择那些在通用任务中表现优异且在各种基准测试中取得高分的预训练模型，同时并确保其参数量和计算资源需求在可承受范围内。

2、选择具有良好社区支持和文档丰富度的LLM也是关键，可以保证在微调中能够提供及时帮助和丰富资源。

3、模型应具备良好的扩展能力，并与现有工具和框架兼容，以便于集成和部署。

4、预训练数据与目标领域数据的匹配度和模型在训练与推理过程中的效率也需考虑。

下图是常见底座模型的对比：

在考虑到目前是中文垂直领域知识问答。要求基座大模型应该具有：

文本理解能力包括但不限于

修辞手法理解与分析：理解文字中使用的各类修辞手法，能对相关修辞手法进行分析与解释。
文字内容总结：针对给定内容进行内容总结和信息抽取。。

语言能力包括但不限于：

字词理解与生成：从字词层面理解语言，并能完成诸如字词识别与分类，字词含义解释，字词生成等任务。
语法理解与修改：理解文字中的语法，并能错误语法表达进行识别和修改。

针对基座模型在各方面的表现，一站式测评平台司南模型测试排行榜单如下：

根据司南基座模型评测榜单以及目前公布的在法律，金融，医疗等垂直领域大模型的选择基座模型实际情况。综合考虑ChatGLM3-6B-Base 作为基座模型是当前比较推荐的。

ChatGLM3-6B-Base模型的司南基准测试结果如下：

3.数据设计

在进行大模型微调前的数据设计的好坏也是直接影响后期微调性能的重要因素之一。一般来说数据设计分为数据构造和数据选择和数据使用三个阶段。

3.1 数据构造

在数据构造中，去收集语料集是简单的，但是根据语料集去编写高质量的微调数据是十分困难且成本不可控的。目前只考虑模型微调的情况下（不考虑二次预训练构建领域大模型基座），通常构建微调数据的方法大的方面来说有人工标注和格式化已有数据集。在格式化已有数据集中常见的方式有Self-Instruction和Self-QA以及Self-KV三种方式。其中Self-Instruction是指根据提前编写好的种子指令，让大模型比如GPT-4去参考种子指令去生成更多的微调数据；如果提前没有种子数据，就可以采用Self-QA方法直接根据非结构化的文档来来生成微调数据；Self-KV是指如果存在高质量的知识图谱就可以根据知识图谱来生成微调数据，这种方式就叫Self-KV。人工标注和格式化已有数据集的图解如下图：

不同的构造方式存在不同的存在不同的特定如下图：

在调研中，目前在垂域大模型正式微调中在通用情况采用Self-QA和人工编写少量种子指令（一般来说正式微调中种子指令应该以100以上）再采用Self-Instrucion进行微调指令数据集的构建。

以基座模型ChatGLM3-6B-Base为例，官方公布的微调数据格式如下：

“instruction”: “Give three tips for staying healthy.”, “input”: “”, “output”: “1.Eat a balanced diet and make sure to include plenty of fruits and vegetables. \n2. Exercise regularly to keep your body active and strong. \n3. Get enough sleep and maintain a consistent sleep schedule.”

其中：instruction为用户指令；input为用户输入；output为模型回答；其中还有可选参数system和history用于更加复杂微调数据集的构建。在正式微调的过程中，指令量一般需要达到1W以上。

3.2 数据选择

在构建好微调数据之后就需要进行数据的选择。数据选择就是在微调数据中选择最适合模型训练的数据子集作为最终的训练数据集。数据选择中目前常见的做法就是通常首先要先进行数据去重，然后基于Nuggets方法来实现最优数据集的选择。

在进行数据去重时核心就是相似度的度量。一般目前来说最常用的就是基于对比学习构造的语义向量这套思路。在实现相似度度量之后就可以根据带条件约束聚类这种无监督学习算法让其保证多样性的同时让数据集的量最小。比如常见的K-center-greedy方法就可以实现条件约束的聚类。算法伪代码如下：

在从微调数据中选择最后数据子集时可以考虑采用Nuggets方法。它的具体做法可以参考下图：

这个方法有三个输入分别是：一个大模型，用来评估数据好坏；Predefined Task Set 用来辅助评估数据好坏；Instruction Set就是等待筛选的大数据集。

输出目标就是Instruction Set的优秀子集，被称为Golden Set。

它认为，如果一条数据作为one-shot的那个shot，即作为一条例子作为参考，能使得大模型有这个参考后，比zeroshot提升很多，就认为这是一条高质量的数据。用公式表达就是：

3.3 数据使用

现在通过大模型微调实践，在具体使用数据进行大模型微调时目前通常达成的共识一般由以下几点：

在设计训练数据时数据的质量远比数据的数量要重要的多。
为防止灾难性遗忘，在微调时通常会考虑将专业领域知识和通用领域知识混合在一起进行训练。
如果涉及二次预训练，需要将一般添加5-10倍的原始训练的数据集中的数据。
在微调过程找出模型学习不好的那部分数据（对应模型PPL值变小）进行质量判断后进行针对性的加强训练。

4.设备选型

设备选型需要综合考虑到基座模型大小，训练数据量，以及成本等多种因素。由于大模型微调训练过程中设计大量的复杂的矩阵运算。因此目前在设备选型中一般会优先考虑GPU以及CPU的性能。然后是内存以及磁盘大小。最后是网络以及散热性能。

在GPU选型上，除少量公司如GOOGLE 采用TPU做大模型训练与推理外，目前主流采用英伟达的GPU显卡作为大模型训练微调主要设备。在技术测评网上公布的英伟达显卡性能排行榜如下：

以ChatGLM3-6B-Base作为基座模型为例,不考虑二次预训练,只做微调的情况下，目前公布的ChatGLM系列模型的在微调的时间消耗如下图：

上面采用的数据均为在4卡4090显卡上分布式微调的测试结果。

在GPU价格上，截止2023年12月，公布的数据中，常见大模型微调的GPU价格如下：

综上所述：综合考虑之下，微调情况下设备选择可以考虑：

同时目前对于核心的GPU算力，目前都有一些主流的云服务厂商来提供。下面是NIVIDA A100 以及T4这两款主流的针对复杂企业级别的数据计算需求的GPU的价格对比，可做参考。

5.模型微调

在针对垂域大模型搭建的过程中完整的流程一般为继续预训练，有监督微调，对齐微调，人类反馈强化学习（Reinforcement learning from human feedback）。比如一个完整的交通领域大模型，它的整个垂域模型的搭建的流程如下：

在调研中发现在目前的微调实践中，一般来说有监督微调+对齐微调就可以达到一个比较好的表现，可以满足一般需求。所以前期不考虑继续预训练和RLHF的的情况下，模型的微调就只涉及监督微调和对齐微调（奖励模型）。

5.1 有监督微调

在模型微调的过程中，微调涉及两种方法，一种是全参微调（Full Fine Tuning）一种是部分参数微调（Parameter-Efficient Fine Tuning）。在部分参数微调中又涉及到集中不同的部分微调方法。他们之间的关系如下图所示：

在上述的微调方法中，目前主要流行的微调的是Lora+Prompt Tuning （DoctorGLM就是采用这种方式）一种用来调整模型内部的参数矩阵来改善模型在垂域的表现，另一种通过外部的输入控制来引导模型的输出。Lora和核心思想就是通过在预训练模型(LLM)的基础上，通过注入可训练层（秩-分解矩阵）来实现模型性能的提升。具体来说，LoRA建议冻结预训练模型的权重，并在每个Transformer块中注入可训练层。Lora整体的思路可以用下图来表示：

在进行Lora微调时，官方ChatGLM3提供了两种微调方式，分别是借助LLAMA-Factory可视化的WEB UI方法和基于微调脚本的方法。具体的微调的步骤可以参考下面的网页链接。

基于LLAMA-Factory微调方案：

GitHub - hiyouga/LLaMA-Factory: Easy-to-use LLM fine-tuning framework (LLaMA, BLOOM, Mistral, Baichuan, Qwen, ChatGLM)

基于官方脚本的微调方案：

ChatGLM3/finetune_demo at main · THUDM/ChatGLM3

Prompt-Tuning通过设计和调整提示词（prompts）来引导预训练模型更好地理解和执行特定任务。这些提示词通常是附加在输入数据前的文本片段。模型在接收到包含提示词的输入后，通过预训练过程中学到的语言知识，生成对应的输出。Prompt-Tuning到目前为止一共经理过由Prefix-Tuning、P-Tuning v1、Parameter-Efficient Prompt Tuning、P-Tuning v2 5个阶段，到目前最新的Prompt-tuning 微调方法是P-Tuning v2。P-Tuning v2在模型的每一层上都加上了layer prompt，不同任务可以共享相同的网络参数，支持多任务学习。具体原理可以参考原始下图：

在Prompt-Tuning时，在上面官方的脚本中也提供了微调脚本。下面是官方微调脚本的实现：

ChatGLM-6B/ptuning at main · THUDM/ChatGLM-6B

5.2 对齐微调

在大模型微调后进行对齐（Alignment）来确保模型的输出符合预期行为、伦理规范和应用需求。这个过程核心是要收集真实多样的指令以及回复，来形成指令跟随数据集（Instruction Following Dataset）。之后通过收集到的数据集对大模型进行指令调优。使其符合更加符合人类的价值观与偏好，同时能够更好的回答垂域领域的知识问答。在进行对齐微调的时候，最可靠的方法就是根据用户提问的问题，聘请专业人才去生成可靠的回复来构建指令跟随数据集，但是这种方法成本要求巨大，除非具有特定条件负责很难复现。目前的微调实践中，一般通过SFT的微调模型就可以达到一个较好的对齐效果。但是为了实现良好的对齐，一般需要针对微调好的SFT模型在设计一个奖励模型（Reward Model）对SFT模型的回答进行打分结合PPO强化学习算法来优化模型表现。

整个的对齐过程可以采用下图来表示：

奖励模型构建

奖励建模（Reward Modeling）阶段的目标是构建一个文本质量对比模型，它完成的主要工作就是对于同一个提示词SFT 模型会给出的多个不同输出结果，需要对这些输出结果的的质量进行排序。奖励建模是大语言模型构建中的关键环节，尤其在需要模型生成高质量文本时。这里的奖励模型本质上就是一个SFT（exculde softmax layer）+MLP的结构。整个的流程如下：

对于每个问题，给出若干答案，然后工人进行排序，而奖励模型就是利用排序的结果来进行反向传播训练。整个神经网络训练的损失函数为：奖励模型的损失函数采用 Pairwise Ranking Loss，公式如下所示：

D：人工对答案进行排序的数据集；

x：数据集D中的问题；

K：每个问题对应的答案数量；

yw和yl：问题x对应的K个答案中的两个，且yw的排序比yl高，由于是一对，也称 pairwise； rθ(x,y)：需要训练的 RM 模型，对于输入的一对x和y得到的标量分数；

θ：RM 模型需要优化的参数。

PPO（Proximal Policy Optimization）强化学习

PPO是一种策略优化算法，通过对策略的限制更新，确保更新后的策略不会偏离旧策略过远，从而稳定训练过程。PPO的核心思想是通过剪辑（clipping）和信任域（trust region）的机制，来控制策略更新的幅度。在微调中以SFT为初始策略，基于RM对策略打分，使用强化学习优化策略，得到强化版本的模型PPO。训练的目标是使得PPO生成的答案能够获得高回报。训练的方法是根据RM的打分来更新PPO的参数。最后通通过多轮的训练，初始策略PPO模型将成为调整好的模型，可以完成更好的对齐，

这个过程可以采用下图来表示：

在对齐训练上可以考虑采用的下面开源框架来实现。

GitHub - hiyouga/ChatGLM-Efficient-Tuning: Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调

6. 模型验证与评估

在模型微调完成后，需要对模型的实际表现进行评估和验证。在垂域大模型的评估主要从模型在行业知识问答和在通用能力的表现两个主要方面进行评估。目前存在许多流行的评测框架：

以下是一些总结对比：

这些框架和基准测试工具各有优缺点。结合测评框架特定可以推荐采用目前流行的评测框架中Open Commpass 。它是有由上海AI实验室发布的面向大模型评测的一站式平台。它具有开源可复现；五大全面的能力维度设计，提供 50+ 个数据集约 30 万题的的模型评测方案；丰富的模型支持：已支持 20+ HuggingFace 及 API 模型；分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测；多样化评测范式：支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板；灵活化拓展等多种特定，同时目前OpenCommpress已经发布了2.0的版本。它目前有三个核心组件构成它主要由三大核心模块构建而成：Compasskit CompassHub 以及Compass Rank。其中CompassRank目前不仅囊括了开源基准测试项目，还包含了私有基准测试。针对行业内各类模型进行有针对性的测评。整体框架如下：

在Compress评估框架中，产生的评估指标如下图：

下面是openCommpress 评估框架仓库地址。

GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

7. 模型部署

在进行模型部署时，目前常见的开源的部署框架以及对应的优缺点如下：

通过上述表格，综合项目的优缺点，建议可以采用目前比较流行的LightLLM框架来进行部署。该框架采用轻量级设计、易于扩展和高速性能，同时LightLLM引入了一种更细粒度的kv cache管理算法 TokenAttention，并设计了一个与TokenAttention高效配合的Efficient Router调度实现。在TokenAttention 和 Efficient Router的相互作用下，LightLLM在大部分场景下都能获得比vLLM 和 Text Generation Inference 得到更高的吞吐，部分场景下可以得到4倍左右的性能提升。

下面是框架的项目地址：

GitHub - ModelTC/lightllm: LightLLM is a Python-based LLM (Large Language Model) inference and serving framework, notable for its lightweight design, easy scalability, and high-speed performance.

8. 平台接入

在上一步模型部署成功之后会有一个URL地址提供，通过URL+参数请求就可以进行模型的调用和推理。在实际业务场景中，常需要将大模型通过接入自己的已有业务平台。一般目前来说通过Flask框架来实现。Flask 是一个使用 Python 编写的轻量级 Web 应用框架。它基于 Werkzeug WSGI 工具包和 Jinja2 模板引擎，旨在提供一个简单、灵活且易于扩展的开发平台。Flask 被设计为一个微框架，意味着它有很小的核心，主要关注基本功能，而不是包含大量内置功能和库。开发者可以根据需要扩展和定制 Flask 应用。Flask可以实现搭建应用的后端。目前在机器学习领域，Gradio 是一个用于快速搭建和共享机器学习模型和数据科学应用的 Python 库。它可以轻松地创建交互式的用户界面（UI），让用户无需编写前端代码就能与模型进行交互。Gradio 提供了一种简单的方法来部署模型并与他人共享，包括在本地运行、通过链接共享，甚至嵌入到网页中。通过Gradio+Flask基本可以实现一个WEB UI 知识问答系统。

下面是Flask框架的项目地址：

GitHub - pallets/flask: The Python micro framework for building web applications.

前端Gradio框架项目地址：

Gradio

9. 持续优化

在模型正式接入之后，用户可以通过UI界面来使用大模型。在用户使用的过程中，可以收集用户对话历史，同时在聊天界面中添加用户反馈机制，让用户可以对每次对话进行评分或提供反馈。用户反馈机制的构建可以参考CHATGPT以及Gmeemi等机制。

CHATGPT的反馈机制：

Gmeemi的多草稿机制

将收集到的数据通过构建数据库系统进行持久化的存储。数据库目前开源的postgresql 和mysql都是良好的选择。之后定期提取用户互动数据，并对数据库中的数据进行数据清洗，整理形成新的训练数据集，对模型进行增量训练。之后可以设置定时任务，将新的模型部署到生成环境之中。

垂域LLM应用实践大模型csunny_InfoQ写作社区

垂直领域大模型微调实践经验最全总结 - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI

GitHub - l-show/RoadSafety-Gpt: 交通垂直领域微调大模型

GitHub - LlamaFamily/Llama-Chinese: Llama中文社区，Llama3在线体验和微调模型已开放，实时汇总最新Llama3学习资料，已将所有代码更新适配Llama3，构建最好的中文Llama大模型，完全开源可商用

GitHub - HqWu-HITCS/Awesome-Chinese-LLM: 整理开源的中文大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等。

数据分析场景下，企业大模型选型的思路与建议

大模型微调方案设计和能力整合 - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI

ChatGLM3-6B大模型部署、微调【0到1小白教程】_chatglm3 6b最低部署要求-CSDN博客

AI大模型探索之路-训练篇23：ChatGLM3微调实战-基于P-Tuning V2技术的实践指南_p-tuning 微调实战glm3-CSDN博客

纯干货！一文带你了解大模型(LLMs)对齐，非常详细~_大模型对齐-CSDN博客

LLM （大模型）评估框架知多少？ - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI

LLMs: 近端策略优化PPO Proximal policy optimization_llm ppo-CSDN博客

依据本地法律数据文本构建的法律大模型指令微调数据集。利用三段论推理来选择和评估当事人的论点是一种常见的做法。三段论中包含大前提、小前提和结论三个部分，应用到法律领域中时，大前提通常是由相关法条构成的法律依据，小前提通常时由犯罪要件构成的案情分析结果，结论通常是由最终适用的法条和判决结果构成。在实践中，三段论是法官广泛使用的法律推理的标准形式，以确保逻辑论点是合理和无可争辩的。数据集的体量为11k。数据格式为 alpaca 格式。司法三段论，是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征，司法三段论就是法官在司法过程中将法律规范作为大前提，以案件事实为小前提，最终得出判决结果的一种推导方法。通过该数据集进行指令微调大模型，可使得模型对案件可能结果的有力洞察，还有助于帮助用户更好地理解案件的法律依据和潜在风险。模型微调（Fine-Tuning）和检索增强生成（Retrieval-Augmented Generation，简称RAG）是两种不同的技术，它们都用于提升语言模型的性能，但各自采用的方法和侧重点有所不同。本文基于微软的论文对其进行了比较。 2023年被广泛认为是大模型技术的元年，大模型技术快速发展，并得到了广泛关注。以ChatGPT的爆火为标志，大语言模型开始进入公众视野，引发了各行各业对该技术的探索。2024年则是大模型的应用年，从金融、媒体、教育到制造业等多个领域，各类大模型应用展现出巨大的潜力和价值，成为推动各行各业数字化转型的重要力量。在软件工程领域，大模型赋能开发人员已展现出一定效果，主要聚焦于代码补全、代码生成等开发效能方面的赋能提升，而在赋能开发安全能力方面的成功案例极少。论文是上海 人工智能 实验室的工作，想训练一个化学垂直领域的对话大模型，然而现有的化学数据往往是结构性的，所以这里论文提出了一套垂直领域数据制作和训练方法，为社区制作专有领域模型提供参考。ChemLLM在化学的三个主要任务上都超过了GPT-3.5，并且超过了GPT-3.5，在其中两个任务上都超过了GPT-4。值得注意的是，ChemLLM对相关的数学和物理任务也显示出了特殊的适应性，尽管它主要接受了以化学为中心的语料库的训练。原化学的表达是SMILES，不适合自然语言处理。在过去一年多的实践工作中，我们团队围绕大模型在专业领域的应用做了一些尝试和探索。在此也把这两年的一些技术经验分享出来，希望跟大家一起交流和探讨。垂直领域大模型的特点垂直领域大模型是指以通用大模型作为base model，再喂以特定领域或行业的领域知识，经过训练和优化的大语言模型。与通用语言模型相比，垂直领域大模型更专注于某个特定领域的知识和技能，具备更高的领域专业性和实用性。但因为一些特殊性（比如... (1) 领域内问题的判别能力，对领域外的问题需要能拒识 (2) 基于召回的知识回答问题的能力 (3) 领域内风格对齐的能力，例如什么问题要简短回答什么问题要翔实回答，以及措辞风格要与领域内的专业人士对齐。的策略，即将预训练的数据(通用+金融领域 )以及指令微调的数据(通用+金融领域 )混合一起进行训练，而不是拆分成继续预训练+指令微调两个阶段，这样模型能很好回答金融领域的问题，也能保持对一般问题的作答。在专业的垂直领域，待检索的文档往往都是非常专业的表述，而用户的问题往往是非常不专业的白话表达。 whao 大模型私有化（Model Private Deployment）指的是将预训练的大型 人工智能 模型（如GPT、BERT等）部署到企业自己的硬件环境或私有云平台上。与公有云服务或模型即服务（Model-as-a-Service）相比，私有化部署能够给企业带来更高级别的数据安全性和自主控制能力。对数据隐私和安全要求高、需要自主控制AI 模型运行环境的企业而言，或者在特定地理位置因法律法规限制不能使用公有云服务的情况下，这种需求是确实存在的。上回分享了一些，今天咱们就来聊聊垂直领域大模型，照旧附上论文资料，同学们自取哈！其实照目前的趋势来看，垂直领域大模型的未来发展是要比通用大模型好的，一是通用大模型有GPT4这座难以跨越的大山，二是自研通用大模型的成本实在太高，一般公司承受不来。所以，各类厂商们自然就会选择参与垂直领域大模型的角逐。目前卷出来的垂直领域大模型已经有很多了，我今天就来和大家分享几个比较出名的，感兴趣的同学也可以自己上手一试。在构建大型语言模型（LLM）应用程序时，开发人员可以通过两种常见方式整合专有数据和特定于领域的数据：检索增强生成（RAG）和微调。RAG使用外部数据增强提示，而微调则将其他知识合并到模型本身中。然而，这两种方法的优缺点尚不清楚。论文提出了一个用于微调和 RAG 的管道，并介绍了多种流行的 LLM（包括 Llama2-13B、GPT-3.5 和 GPT-4）的两者的权衡。我们的流程由多个阶段组成，包括从 PDF 中提取信息、生成问题和答案、使用它们进行微调，以及利用 GPT-4 评估结果。垂直领域大模型是指在特定的领域或行业中经过训练和优化的大型语言模型。与通用语言模型相比，垂直领域大模型更专注于某个特定领域的知识和技能，具备更高的领域专业性和实用性。题图 from unsplash与通用大模型相比，垂直领域大模型具有以下优势和劣势：优势：领域专业性：垂直领域大模型经过专门的训练，能够更好地理解和处理特定领域的知识、术语和上下文。高质量输出：由于在特定领域中进行了优化，垂直领域大模... 领域知识库加上通用大模型，针对通用大模型见过的知识比较少的问题，利用向量数据库等方式根据问题在领域知识库中找到相关内容，再利用通用大模型强大的summarization和qa的能力生成回复，完成本次垂直大模型研发。目前很多企业希望将大模型的能力应用到企业内部当中，但很多通用大模型只是一个预训练模型，其所能回答的知识主要来源于互联网上公开的通用知识库，对于部分垂直领域和企业内部的私有知识库的问答，给出的回答。：垂类大模型的效果与底座性能息息相关，研发垂类大模型第一步就是确定开源大模型解决方案。终于有时间做个最近工作的小结，最近一个多月，做了很多大模型微调的工作，包括了生成式任务以及判别式任务，典型的任务如文创、意图分类等。整理一下微调的经验与感想（几十块A100的堆出来的，都是钱啊！通过认知篇的内容，相信大家对大模型已经有了初步的认知。多模态RAG和垂直大模型的发展虽然面临一些挑战和问题，但随着技术的不断发展和应用的不断深入，将会在各个领域发挥更加重要的作用，也会为我们的生产和生活带来更多的便利和价值。对大模型有了认知之后，后面我们将带大家进入大模型的实践。作者|nghuyong 编辑|汽车人原文链接：https://zhuanlan.zhihu.com/p/652645925点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【大模型】技术交流群本文只做学术分享，如有侵权，联系删文导读本文将系统介绍如何做一个垂直领域的大模型，包括继续预训练，领域微调数据构建，减缓幻觉，知识召回多个方面。也会介绍整体的... 迄今为止，应该没有人还怀疑大模型的能力吧？但目前大模型实现真正落地，其实还有一段艰难的路要走。对于ToC端来说，广大群众的口味已经被ChatGPT给养叼了，市场基本上被ChatGPT吃的干干净净。虽然国内大厂在紧追不舍，但目前绝大多数都还在实行内测机制，大概率是不会广泛开放的（毕竟，各大厂还是主盯ToB、ToG市场的，从华为在WAIC的汇报就可以看出）。而对于ToB和ToG端来说，本地化部署、领域 or行业内效果绝群、国产化无疑就成为了重要的考核指标。个人觉得垂直领域大模型或者说大模型领域化、行业化才是大模型虽然2023年以来几乎很多公司都发出了自己的通用大模型，但是都还停留在“开放闲聊”阶段，这种泛娱乐的方式带来生产率是有限的。在之前的文章有介绍过: 普通人(包括程序员)怎么follow大模型的发展和如何成为提示词工程师.通用大模型类似ChatGPT等,一般公司和程序员是无法超越。chatgpt的成功是属于幸存者偏差，它的成功，不一定代表所有人都能成功，即使成功也不一定超越过。SFT: 通过SFT可以激发大模型理解领域内的各种问题并进行回答的能力(在有召回知识的基础上)。模型对特定问题的答案。随着 人工智能 技术的不断深入，各行各业正迎来垂类大模型应用的井喷式发展。在IT、工业生产、金融以及服务营销等多个领域，这些高度专业化的模型正迅速成为行业变革的驱动力。近日，阿里云宣布正在全面推进AI编程，其自主研发的通义灵码已成为程序员的得力助手。该公司甚至为这位特殊的“AI员工”分配了正式员工编号——AI001，预示着AI在编程领域的正式上岗。阿里云透露，借助通义灵码，程序员能够更高效地进行代码编写、错误排查和代码优化，从而大大节省了他们在重复性劳动上所花费的时间。