添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

一年来多以来,大语言模型发展和变化越来越快,总体呈现出模型尺寸越变越大,算力需求越来越多,模型推理要求越来越高的特点。在这种背景下,现在不同的人关于垂域 LLM 出现了一些争议,一部分人认为随着大模型的能力越来越强,垂类的知识会加训融合到大模型。 尤其当下,在 GPT-4o 效果一枝独秀的前提下,其他无论是通用模型,还是基于垂类模型都被 GPT-4o 吊打,一个典型的对比就是 GPT-4o 加持的Code Colpliot的代码能力一点都不逊色与Devins等智能体工程师。同时另一种声音则认为垂类模型必然存在,也是具体落地到业务场景尤其是 ToB 业务场景时是必然的选择,近来模型社区不断放出来的 DB-GPT、CodeGPT、LawGPT、FinGPT 等项目。由于ToB行业对数据敏感性的高要求,所以不可能将一个企业的核心数据资产去做通用大模型训练,所以垂域大模型是存在的。目前,许多大语言模型已经在多个垂直领域有了微调实践,以提高它们在特定任务上的表现。例如,在医疗领域的华佗大模型、金融方面的轩辕大模型、法律上的韩非大模型。微调后的模型可以更好地理解和处理专业术语,提供更准确的回答。目前大模型微调的方法基本思路就是在通用LLM上结合目标领域的小规模有标注数据上进行有监督学习(SFT)。这可以通过在模型的训练过程中添加领域相关的知识和信息,来提高模型的适应性。在微调实践中,通过总结经验人们得出了一些宝贵的经验,但是在垂直领域微调如何在低成本的条件下实现针对性的高质量微调还是存在一些困难。

2.基座模型选择

在垂直领域LLM微调时选择合适的基座模型是十分重要的。垂直领域(纵深领域)一般都是建立在通识知识之上的, 基座模型选择的好环会对后期微调模型的好坏产生深远的影响。模型选择的不好就相当于是让一个本科阶段知识都没有学的学生直接跨入到研究生阶段,学起来不仅会很吃力(成本),是很难学会的(结果)。在选择基座模型进行垂直领域微调时,需要综合考虑模型性能、规模、社区支持与文档、可扩展性与兼容性、训练数据的适用性、训练与推理效率、安全以及成本等多个因素。一般来说需要可以考虑以下原则:

1、首先选择那些在通用任务中表现优异且在各种基准测试中取得高分的预训练模型,同时并确保其参数量和计算资源需求在可承受范围内。

2、选择具有良好社区支持和文档丰富度的LLM也是关键,可以保证在微调中能够提供及时帮助和丰富资源。

3、模型应具备良好的扩展能力,并与现有工具和框架兼容,以便于集成和部署。

4、预训练数据与目标领域数据的匹配度和模型在训练与推理过程中的效率也需考虑。

下图是常见底座模型的对比:

在考虑到目前是中文垂直领域知识问答。要求基座大模型应该具有:

文本理解能力包括但不限于

  • 修辞手法理解与分析:理解文字中使用的各类修辞手法,能对相关修辞手法进行分析与解释。

  • 文字内容总结:针对给定内容进行内容总结和信息抽取。。

语言能力包括但不限于:

  • 字词理解与生成:从字词层面理解语言,并能完成诸如字词识别与分类,字词含义解释,字词生成等任务。

  • 语法理解与修改:理解文字中的语法,并能错误语法表达进行识别和修改。

针对基座模型在各方面的表现,一站式测评平台司南模型测试排行榜单如下:

根据司南基座模型评测榜单以及目前公布的在法律,金融,医疗等垂直领域大模型的选择基座模型实际情况。综合考虑ChatGLM3-6B-Base 作为基座模型是当前比较推荐的。

ChatGLM3-6B-Base模型的司南基准测试结果如下:

3.数据设计

在进行大模型微调前的数据设计的好坏也是直接影响后期微调性能的重要因素之一。一般来说数据设计分为数据构造和数据选择和数据使用三个阶段。

3.1 数据构造

在数据构造中,去收集语料集是简单的,但是根据语料集去编写高质量的微调数据是十分困难且成本不可控的。目前只考虑模型微调的情况下(不考虑二次预训练构建领域大模型基座),通常构建微调数据的方法大的方面来说有人工标注和格式化已有数据集。在格式化已有数据集中常见的方式有Self-Instruction和Self-QA以及Self-KV三种方式。其中Self-Instruction是指根据提前编写好的种子指令,让大模型比如GPT-4去参考种子指令去生成更多的微调数据;如果提前没有种子数据,就可以采用Self-QA方法直接根据非结构化的文档来来生成微调数据;Self-KV是指如果存在高质量的知识图谱就可以根据知识图谱来生成微调数据,这种方式就叫Self-KV。人工标注和格式化已有数据集的图解如下图:

不同的构造方式存在不同的存在不同的特定如下图:

在调研中,目前在垂域大模型正式微调中在通用情况采用Self-QA和人工编写少量种子指令(一般来说正式微调中种子指令应该以100以上)再采用Self-Instrucion进行微调指令数据集的构建。

以基座模型ChatGLM3-6B-Base为例,官方公布的微调数据格式如下:

“instruction”: “Give three tips for staying healthy.”, “input”: “”, “output”: “1.Eat a balanced diet and make sure to include plenty of fruits and vegetables. \n2. Exercise regularly to keep your body active and strong. \n3. Get enough sleep and maintain a consistent sleep schedule.”

其中:instruction为用户指令;input为用户输入;output为模型回答;其中还有可选参数system和history用于更加复杂微调数据集的构建。在正式微调的过程中,指令量一般需要达到1W以上。

3.2 数据选择

在构建好微调数据之后就需要进行数据的选择。数据选择就是在微调数据中选择最适合模型训练的数据子集作为最终的训练数据集。数据选择中目前常见的做法就是通常首先要先进行数据去重,然后基于Nuggets方法来实现最优数据集的选择。

在进行数据去重时核心就是相似度的度量。一般目前来说最常用的就是基于对比学习构造的语义向量这套思路。在实现相似度度量之后就可以根据带条件约束聚类这种无监督学习算法让其保证多样性的同时让数据集的量最小。比如常见的K-center-greedy方法就可以实现条件约束的聚类。算法伪代码如下:

在从微调数据中选择最后数据子集时可以考虑采用Nuggets方法。它的具体做法可以参考下图:

这个方法有三个输入分别是:一个大模型,用来评估数据好坏;Predefined Task Set 用来辅助评估数据好坏;Instruction Set就是等待筛选的大数据集。

输出目标就是Instruction Set的优秀子集,被称为Golden Set。

它认为,如果一条数据作为one-shot的那个shot,即作为一条例子作为参考,能使得大模型有这个参考后,比zeroshot提升很多,就认为这是一条高质量的数据。用公式表达就是

3.3 数据使用

现在通过大模型微调实践,在具体使用数据进行大模型微调时目前通常达成的共识一般由以下几点:

  1. 在设计训练数据时数据的质量远比数据的数量要重要的多。

  2. 为防止灾难性遗忘,在微调时通常会考虑将专业领域知识和通用领域知识混合在一起进行训练。

  3. 如果涉及二次预训练,需要将一般添加5-10倍的原始训练的数据集中的数据。

  4. 在微调过程找出模型学习不好的那部分数据(对应模型PPL值变小)进行质量判断后进行针对性的加强训练。

4.设备选型

设备选型需要综合考虑到基座模型大小,训练数据量,以及成本等多种因素。由于大模型微调训练过程中设计大量的复杂的矩阵运算。因此目前在设备选型中一般会优先考虑GPU以及CPU的性能。然后是内存以及磁盘大小。最后是网络以及散热性能。

在GPU选型上,除少量公司如GOOGLE 采用TPU做大模型训练与推理外, 目前主流采用英伟达的GPU显卡作为大模型训练微调主要设备。在技术测评网上公布的英伟达显卡性能排行榜如下:

以ChatGLM3-6B-Base作为基座模型为例,不考虑二次预训练,只做微调的情况下,目前公布的ChatGLM系列模型的在微调的时间消耗如下图:

上面采用的数据均为在4卡4090显卡上分布式微调的测试结果。

在GPU价格上,截止2023年12月,公布的数据中,常见大模型微调的GPU价格如下:

综上所述:综合考虑之下,微调情况下设备选择可以考虑:

同时目前对于核心的GPU算力,目前都有一些主流的云服务厂商来提供。下面是NIVIDA A100 以及T4这两款主流的针对复杂企业级别的数据计算需求的GPU的价格对比,可做参考。

5.模型微调

在针对垂域大模型搭建的过程中完整的流程一般为继续预训练,有监督微调,对齐微调,人类反馈强化学习(Reinforcement learning from human feedback)。比如一个完整的交通领域大模型,它的整个垂域模型的搭建的流程如下:

在调研中发现在目前的微调实践中,一般来说有监督微调+对齐微调就可以达到一个比较好的表现,可以满足一般需求。所以前期不考虑继续预训练和RLHF的的情况下,模型的微调就只涉及监督微调和对齐微调(奖励模型)。

5.1 有监督微调

在模型微调的过程中,微调涉及两种方法,一种是全参微调(Full Fine Tuning)一种是部分参数微调(Parameter-Efficient Fine Tuning)。在部分参数微调中又涉及到集中不同的部分微调方法。他们之间的关系如下图所示:

在上述的微调方法中,目前主要流行的微调的是Lora+Prompt Tuning (DoctorGLM就是采用这种方式)一种用来调整模型内部的参数矩阵来改善模型在垂域的表现,另一种通过外部的输入控制来引导模型的输出。Lora和核心思想就是通过在预训练模型(LLM)的基础上,通过注入可训练层(秩-分解矩阵)来实现模型性能的提升。具体来说,LoRA建议冻结预训练模型的权重,并在每个Transformer块中注入可训练层。Lora整体的思路可以用下图来表示:

在进行Lora微调时,官方ChatGLM3提供了两种微调方式,分别是借助LLAMA-Factory可视化的WEB UI方法和基于微调脚本的方法。具体的微调的步骤可以参考下面的网页链接。

基于LLAMA-Factory微调方案

GitHub - hiyouga/LLaMA-Factory: Easy-to-use LLM fine-tuning framework (LLaMA, BLOOM, Mistral, Baichuan, Qwen, ChatGLM)

基于官方脚本的微调方案:

ChatGLM3/finetune_demo at main · THUDM/ChatGLM3

Prompt-Tuning通过设计和调整提示词(prompts)来引导预训练模型更好地理解和执行特定任务。这些提示词通常是附加在输入数据前的文本片段。模型在接收到包含提示词的输入后,通过预训练过程中学到的语言知识,生成对应的输出。Prompt-Tuning到目前为止一共经理过由Prefix-Tuning、P-Tuning v1、Parameter-Efficient Prompt Tuning、P-Tuning v2 5个阶段,到目前最新的Prompt-tuning 微调方法是P-Tuning v2。P-Tuning v2在模型的每一层上都加上了layer prompt,不同任务可以共享相同的网络参数,支持多任务学习。具体原理可以参考原始下图:

在Prompt-Tuning时,在上面官方的脚本中也提供了微调脚本。下面是官方微调脚本的实现:

ChatGLM-6B/ptuning at main · THUDM/ChatGLM-6B

5.2 对齐微调

在大模型微调后进行对齐(Alignment)来确保模型的输出符合预期行为、伦理规范和应用需求。这个过程核心是要收集真实多样的指令以及回复,来形成指令跟随数据集(Instruction Following Dataset)。之后通过收集到的数据集对大模型进行指令调优。使其符合更加符合人类的价值观与偏好,同时能够更好的回答垂域领域的知识问答。在进行对齐微调的时候,最可靠的方法就是根据用户提问的问题,聘请专业人才去生成可靠的回复来构建指令跟随数据集,但是这种方法成本要求巨大,除非具有特定条件负责很难复现。目前的微调实践中,一般通过SFT的微调模型就可以达到一个较好的对齐效果。但是为了实现良好的对齐,一般需要针对微调好的SFT模型在设计一个奖励模型(Reward Model)对SFT模型的回答进行打分结合PPO强化学习算法来优化模型表现。

整个的对齐过程可以采用下图来表示:

  • 奖励模型构建

奖励建模(Reward Modeling)阶段的目标是构建一个文本质量对比模型,它完成的主要工作就是对于同一个提示词SFT 模型会给出的多个不同输出结果,需要对这些输出结果的的质量进行排序。奖励建模是大语言模型构建中的关键环节,尤其在需要模型生成高质量文本时。这里的奖励模型本质上就是一个SFT(exculde softmax layer)+MLP的结构。整个的流程如下:

对于每个问题,给出若干答案,然后工人进行排序,而奖励模型就是利用排序的结果来进行反向传播训练。整个神经网络训练的损失函数为:奖励模型的损失函数采用 Pairwise Ranking Loss,公式如下所示:

D:人工对答案进行排序的数据集;

x:数据集D中的问题;

K:每个问题对应的答案数量;

yw​和yl​:问题x对应的K个答案中的两个,且yw​的排序比yl​高,由于是一对,也称 pairwise; rθ​(x,y):需要训练的 RM 模型,对于输入的一对x和y得到的标量分数;

θ:RM 模型需要优化的参数。

  • PPO(Proximal Policy Optimization)强化学习

PPO是一种策略优化算法,通过对策略的限制更新,确保更新后的策略不会偏离旧策略过远,从而稳定训练过程。PPO的核心思想是通过剪辑(clipping)和信任域(trust region)的机制,来控制策略更新的幅度。在微调中以SFT为初始策略,基于RM对策略打分,使用强化学习优化策略,得到强化版本的模型PPO。训练的目标是使得PPO生成的答案能够获得高回报。训练的方法是根据RM的打分来更新PPO的参数。最后通通过多轮的训练,初始策略PPO模型将成为调整好的模型,可以完成更好的对齐,

这个过程可以采用下图来表示:

在对齐训练上可以考虑采用的下面开源框架来实现。

GitHub - hiyouga/ChatGLM-Efficient-Tuning: Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调

6. 模型验证与评估

在模型微调完成后,需要对模型的实际表现进行评估和验证。在垂域大模型的评估主要从模型在行业知识问答和在通用能力的表现两个主要方面进行评估。目前存在许多流行的评测框架:

以下是一些总结对比:

这些框架和基准测试工具各有优缺点。结合测评框架特定可以推荐采用目前流行的评测框架中Open Commpass 。它是有由上海AI实验室发布的面向大模型评测的一站式平台。它具有开源可复现;五大全面的能力维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案;丰富的模型支持:已支持 20+ HuggingFace 及 API 模型;分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测;多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板;灵活化拓展等多种特定,同时目前OpenCommpress已经发布了2.0的版本。它目前有三个核心组件构成它主要由三大核心模块构建而成:Compasskit CompassHub 以及Compass Rank。其中CompassRank目前不仅囊括了开源基准测试项目,还包含了私有基准测试。针对行业内各类模型进行有针对性的测评。整体框架如下:

在Compress评估框架中,产生的评估指标如下图:

下面是openCommpress 评估框架仓库地址。

GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

7. 模型部署

在进行模型部署时,目前常见的开源的部署框架以及对应的优缺点如下:

通过上述表格,综合项目的优缺点,建议可以采用目前比较流行的LightLLM框架来进行部署。该框架采用轻量级设计、易于扩展和高速性能,同时LightLLM引入了一种更细粒度的kv cache管理算法 TokenAttention,并设计了一个与TokenAttention高效配合的Efficient Router调度实现。在TokenAttention 和 Efficient Router的相互作用下,LightLLM在大部分场景下都能获得比vLLM 和 Text Generation Inference 得到更高的吞吐,部分场景下可以得到4倍左右的性能提升。

下面是框架的项目地址:

GitHub - ModelTC/lightllm: LightLLM is a Python-based LLM (Large Language Model) inference and serving framework, notable for its lightweight design, easy scalability, and high-speed performance.

8. 平台接入

在上一步模型部署成功之后会有一个URL地址提供,通过URL+参数请求就可以进行模型的调用和推理。在实际业务场景中,常需要将大模型通过接入自己的已有业务平台。一般目前来说通过Flask框架来实现。Flask 是一个使用 Python 编写的轻量级 Web 应用框架。它基于 Werkzeug WSGI 工具包和 Jinja2 模板引擎,旨在提供一个简单、灵活且易于扩展的开发平台。Flask 被设计为一个微框架,意味着它有很小的核心,主要关注基本功能,而不是包含大量内置功能和库。开发者可以根据需要扩展和定制 Flask 应用。Flask可以实现搭建应用的后端。目前在机器学习领域,Gradio 是一个用于快速搭建和共享机器学习模型和数据科学应用的 Python 库。它可以轻松地创建交互式的用户界面(UI),让用户无需编写前端代码就能与模型进行交互。Gradio 提供了一种简单的方法来部署模型并与他人共享,包括在本地运行、通过链接共享,甚至嵌入到网页中。通过Gradio+Flask基本可以实现一个WEB UI 知识问答系统。

下面是Flask框架的项目地址:

GitHub - pallets/flask: The Python micro framework for building web applications.

前端Gradio框架项目地址:

Gradio

9. 持续优化

在模型正式接入之后,用户可以通过UI界面来使用大模型。在用户使用的过程中,可以收集用户对话历史,同时在聊天界面中添加用户反馈机制,让用户可以对每次对话进行评分或提供反馈。用户反馈机制的构建可以参考CHATGPT以及Gmeemi等机制。

CHATGPT的反馈机制:

Gmeemi的多草稿机制

将收集到的数据通过构建数据库系统进行持久化的存储。数据库目前开源的postgresql 和mysql都是良好的选择。之后定期提取用户互动数据,并对数据库中的数据进行数据清洗,整理形成新的训练数据集,对模型进行增量训练。之后可以设置定时任务,将新的模型部署到生成环境之中。

垂域LLM应用实践大模型csunny_InfoQ写作社区

垂直领域大模型微调实践经验最全总结 - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI

GitHub - l-show/RoadSafety-Gpt: 交通垂直领域微调大模型

GitHub - LlamaFamily/Llama-Chinese: Llama中文社区,Llama3在线体验和微调模型已开放,实时汇总最新Llama3学习资料,已将所有代码更新适配Llama3,构建最好的中文Llama大模型,完全开源可商用

GitHub - HqWu-HITCS/Awesome-Chinese-LLM: 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

数据分析场景下,企业大模型选型的思路与建议

大模型微调方案设计和能力整合 - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI

ChatGLM3-6B大模型部署、微调【0到1小白教程】_chatglm3 6b最低部署要求-CSDN博客

AI大模型探索之路-训练篇23:ChatGLM3微调实战-基于P-Tuning V2技术的实践指南_p-tuning 微调实战glm3-CSDN博客

纯干货!一文带你了解大模型(LLMs)对齐,非常详细~_大模型对齐-CSDN博客

LLM (大模型)评估框架知多少? - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI

LLMs: 近端策略优化PPO Proximal policy optimization_llm ppo-CSDN博客

依据本地法律数据文本构建的法律大 模型 指令 微调 数据集。 利用三段论推理来选择和评估当事人的论点是一种常见的做法。三段论中包含大前提、小前提和结论三个部分,应用到法律 领域 中时,大前提通常是由相关法条构成的法律依据,小前提通常时由犯罪要件构成的案情分析结果,结论通常是由最终适用的法条和判决结果构成。在实践中,三段论是法官广泛使用的法律推理的标准形式,以确保逻辑论点是合理和无可争辩的。 数据集的体量为11k。数据格式为 alpaca 格式。 司法三段论,是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征,司法三段论就是法官在司法过程中将法律规范作为大前提,以案件事实为小前提,最终得出判决结果的一种推导方法。通过该数据集进行指令 微调 模型 ,可使得 模型 对案件可能结果的有力洞察,还有助于帮助用户更好地理解案件的法律依据和潜在风险。 模型 微调 (Fine-Tuning)和检索增强生成(Retrieval-Augmented Generation,简称RAG)是两种不同的技术,它们都用于提升语言 模型 的性能,但各自采用的方法和侧重点有所不同。本文基于微软的论文对其进行了比较。 2023年被广泛认为是大 模型 技术的元年,大 模型 技术快速发展,并得到了广泛关注。以ChatGPT的爆火为标志,大语言 模型 开始进入公众视野,引发了各行各业对该技术的探索。2024年则是大 模型 的应用年,从金融、媒体、教育到制造业等多个 领域 ,各类大 模型 应用展现出巨大的潜力和价值,成为推动各行各业数字化转型的重要力量。在软件工程 领域 ,大 模型 赋能开发人员已展现出一定效果,主要聚焦于代码补全、代码生成等开发效能方面的赋能提升,而在赋能开发安全能力方面的成功案例极少。 论文是上海 人工智能 实验室的工作,想训练一个化学 垂直 领域 的对话大 模型 ,然而现有的化学数据往往是结构性的,所以这里论文提出了一套 垂直 领域 数据制作和训练方法,为社区制作专有 领域 模型 提供参考。ChemLLM在化学的三个主要任务上都超过了GPT-3.5,并且超过了GPT-3.5,在其中两个任务上都超过了GPT-4。值得注意的是,ChemLLM对相关的数学和物理任务也显示出了特殊的适应性,尽管它主要接受了以化学为中心的语料库的训练。原化学的表达是SMILES,不适合自然语言处理。 在过去一年多的实践工作中,我们团队围绕大 模型 在专业 领域 的应用做了一些尝试和探索。在此也把这两年的一些技术经验分享出来,希望跟大家一起交流和探讨。 垂直 领域 模型 的特点 垂直 领域 模型 是指以通用大 模型 作为base model,再喂以特定 领域 或行业的 领域 知识,经过训练和优化的大语言 模型 。与通用语言 模型 相比, 垂直 领域 模型 更专注于某个特定 领域 的知识和技能,具备更高的 领域 专业性和实用性。但因为一些特殊性(比如... (1) 领域 内问题的判别能力,对 领域 外的问题需要能拒识 (2) 基于召回的知识回答问题的能力 (3) 领域 内风格对齐的能力,例如什么问题要简短回答什么问题要翔实回答,以及措辞风格要与 领域 内的专业人士对齐。的策略,即将预训练的数据(通用+金融 领域 )以及指令 微调 的数据(通用+金融 领域 )混合一起进行训练,而不是拆分成继续预训练+指令 微调 两个阶段,这样 模型 能很好回答金融 领域 的问题,也能保持对一般问题的作答。在专业的 垂直 领域 ,待检索的文档往往都是非常专业的表述,而用户的问题往往是非常不专业的白话表达。 whao 大 模型 私有化(Model Private Deployment)指的是将预训练的大型 人工智能 模型 (如GPT、BERT等)部署到企业自己的硬件环境或私有云平台上。与公有云服务或 模型 即服务(Model-as-a-Service)相比,私有化部署能够给企业带来更高级别的数据安全性和自主控制能力。对数据隐私和安全要求高、需要自主控制AI 模型 运行环境的企业而言,或者在特定地理位置因法律法规限制不能使用公有云服务的情况下,这种需求是确实存在的。 上回分享了一些,今天咱们就来聊聊 垂直 领域 模型 ,照旧附上论文资料,同学们自取哈!其实照目前的趋势来看, 垂直 领域 模型 的未来发展是要比通用大 模型 好的,一是通用大 模型 有GPT4这座难以跨越的大山,二是自研通用大 模型 的成本实在太高,一般公司承受不来。所以,各类厂商们自然就会选择参与 垂直 领域 模型 的角逐。目前卷出来的 垂直 领域 模型 已经有很多了,我今天就来和大家分享几个比较出名的,感兴趣的同学也可以自己上手一试。 在构建大型语言 模型 (LLM) 应用程序时,开发人员可以通过两种常见方式整合专有数据和特定于 领域 的数据:检索增强生成 (RAG) 和 微调 。RAG使用外部数据增强提示,而 微调 则将其他知识合并到 模型 本身中。然而,这两种方法的优缺点尚不清楚。论文提出了一个用于 微调 和 RAG 的管道,并介绍了多种流行的 LLM(包括 Llama2-13B、GPT-3.5 和 GPT-4)的两者的权衡。我们的流程由多个阶段组成,包括从 PDF 中提取信息、生成问题和答案、使用它们进行 微调 ,以及利用 GPT-4 评估结果。 垂直 领域 模型 是指在特定的 领域 或行业中经过训练和优化的大型语言 模型 。与通用语言 模型 相比, 垂直 领域 模型 更专注于某个特定 领域 的知识和技能,具备更高的 领域 专业性和实用性。题图 from unsplash与通用大 模型 相比, 垂直 领域 模型 具有以下优势和劣势:优势: 领域 专业性: 垂直 领域 模型 经过专门的训练,能够更好地理解和处理特定 领域 的知识、术语和上下文。高质量输出:由于在特定 领域 中进行了优化, 垂直 领域 大模... 领域 知识库加上通用大 模型 ,针对通用大 模型 见过的知识比较少的问题,利用向量数据库等方式根据问题在 领域 知识库中找到相关内容,再利用通用大 模型 强大的summarization和qa的能力生成回复,完成本次 垂直 模型 研发。目前很多企业希望将大 模型 的能力应用到企业内部当中,但很多通用大 模型 只是一个预训练 模型 ,其所能回答的知识主要来源于互联网上公开的通用知识库,对于部分 垂直 领域 和企业内部的私有知识库的问答,给出的回答。:垂类大 模型 的效果与底座性能息息相关,研发垂类大 模型 第一步就是确定开源大 模型 解决方案。 终于有时间做个最近工作的小结,最近一个多月,做了很多大 模型 微调 的工作,包括了生成式任务以及判别式任务,典型的任务如文创、意图分类等。整理一下 微调 的经验与感想 (几十块A100的堆出来的,都是钱啊! 通过认知篇的内容,相信大家对大 模型 已经有了初步的认知。多模态RAG和 垂直 模型 的发展虽然面临一些挑战和问题,但随着技术的不断发展和应用的不断深入,将会在各个 领域 发挥更加重要的作用,也会为我们的生产和生活带来更多的便利和价值。对大 模型 有了认知之后,后面我们将带大家进入大 模型 的实践。 作者|nghuyong 编辑|汽车人原文链接:https://zhuanlan.zhihu.com/p/652645925点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【大 模型 】技术交流群本文只做学术分享,如有侵权,联系删文导读本文将系统介绍如何做一个 垂直 领域 的大 模型 ,包括继续预训练, 领域 微调 数据构建,减缓幻觉,知识召回多个方面。也会介绍整体的... 迄今为止,应该没有人还怀疑大 模型 的能力吧?但目前大 模型 实现真正落地,其实还有一段艰难的路要走。对于ToC端来说,广大群众的口味已经被ChatGPT给养叼了,市场基本上被ChatGPT吃的干干净净。虽然国内大厂在紧追不舍,但目前绝大多数都还在实行内测机制,大概率是不会广泛开放的(毕竟,各大厂还是主盯ToB、ToG市场的,从华为在WAIC的汇报就可以看出)。而对于ToB和ToG端来说,本地化部署、 领域 or行业内效果绝群、国产化无疑就成为了重要的考核指标。个人觉得 垂直 领域 模型 或者说大 模型 领域 化、行业化才是大 模型 虽然2023年以来几乎很多公司都发出了自己的通用大 模型 ,但是都还停留在“开放闲聊”阶段,这种泛娱乐的方式带来生产率是有限的。在之前的文章有介绍过: 普通人(包括程序员)怎么follow大 模型 的发展和如何成为提示词工程师.通用大 模型 类似ChatGPT等,一般公司和程序员是无法超越。chatgpt的成功是属于幸存者偏差,它的成功,不一定代表所有人都能成功,即使成功也不一定超越过。SFT: 通过SFT可以激发大 模型 理解 领域 内的各种问题并进行回答的能力(在有召回知识的基础上)。 模型 对特定问题的答案。 随着 人工智能 技术的不断深入,各行各业正迎来垂类大 模型 应用的井喷式发展。在IT、工业生产、金融以及服务营销等多个 领域 ,这些高度专业化的 模型 正迅速成为行业变革的驱动力。近日,阿里云宣布正在全面推进AI编程,其自主研发的通义灵码已成为程序员的得力助手。该公司甚至为这位特殊的“AI员工”分配了正式员工编号——AI001,预示着AI在编程 领域 的正式上岗。阿里云透露,借助通义灵码,程序员能够更高效地进行代码编写、错误排查和代码优化,从而大大节省了他们在重复性劳动上所花费的时间。