马斯克开源 Grok-1,该混合专家模型拥有 3140 亿参数系迄今最大,将对相关领域产生哪些影响?

开源社区有福了。 说到做到,马斯克承诺的开源版大模型 Grok 终于来了! 今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混…
关注者
759
被浏览
564,403
登录后你可以
不限量看优质回答 私信答主深度交流 精彩内容一键收藏

Grok-1的3140 亿参数量是迄今为止最大参数量的开源大模型,而允许商用、可修改和分发,对各种自研大模型是一个很大的利好!

言出必行,北京时间3月18日凌晨,马斯克承诺的开源版大模型 Grok 终于发布!

项目地址:

让我们先看下在Github的下载地址上,它的开源声明都说了什么:

一、开源声明主要内容

1.模型介绍:

Grok-1模型拥有高达314亿个参数,采用了混合专家(MoE)层结构。MoE层的实现,在效率上存在局限,但这种结构设计选择是刻意为之,主要目的是为了简化模型验证流程,避免自定义内核的需求。

2.许可协议:

Grok-1遵循Apache 2.0许可证,赋予用户以下权利:

商业使用自由: 用户有权将Grok-1用于商业用途,无需支付任何许可费用。
源代码修改及再分发: 用户可以对源代码进行修改,并且可以在相同的许可证下对修改后的版本进行分发。
专利权授予: 该许可证自动授予用户对软件的所有专利权利,确保贡献者无法基于专利对用户提起诉讼。
版权和许可声明保留: 在分发软件或其衍生版本时,必须包含原始的版权和许可声明。
责任限制: 虽然提供一定程度的保障,但软件的作者或贡献者不对因使用软件可能产生的任何损害承担责任。

Grok-1有314B的大小,需要有足够 GPU 内存的机器,从网友的推算来看,可能需要一台拥有 628 GB GPU 内存的机器,大概是8个H100(每个 80GB)就可以,才有可能使用示例的代码来测试模型。

因此基本上个人是没办法用的,这个模型开源就是为了便于各种企业使用的,同时模型还提供了权重下载。

地址为:

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

二、相关领域影响

Grok-1的开源,对于中小企业垂直领域的微调模型是一个利好,通过下载Grok进行微调,可以诞生很多基于这个模型的有趣应用。

对比之前已经开源的大模型来说,它的参数量更大,而大模型的参数量越大,它的涌现水平理论上应该是会更加智能,毕竟力大出奇迹这件事OPENAI已经验证过了。

也许就如同Stable Diffusion的开源对于国内各种AI绘画工具软件的影响一样,Grok-1的开源或许会对于各种垂直邻域的应用,尤其是国内的应用爆发会有一定的启发作用。

三、网友分析

推特网友 Andrew Kean Gao详细分析了 Grok-1 的架构细节,并做了一些总结。

原文过于专业我也看不懂,我输入信息后让KIMI帮我进行了一个讲解和翻译,分享给大家:

这个模型就像是一个由8个小组(我们称之为“专家”)组成的大团队,其中有两个小组特别活跃,它们一起工作,帮助模型理解和处理信息。

这个模型有一个特别的名字,叫做“旋转嵌入”,这让它和别的模型有点不一样,就像是一种特殊的记忆方法,帮助它更好地记住和理解事物。

模型里有一个叫做“tokenizer”的部分,它的词汇量非常大,有131,072个词汇,这和另一个知名的模型GPT-4很像。嵌入大小是6,144,你可以想象成是模型用来存储和处理信息的空间大小。

这个模型还有64层“变换器”,每一层都像是一个处理信息的小工厂。
在这些小工厂里,有两个特别重要的部分,一个叫做“多头注意力块”,它有48个“头”用来提问,还有8个“头”用来回答问题或提供信息。另一个部分是“密集块”,它的作用是加强模型的理解和记忆能力,让模型能够处理更复杂的信息。

这个模型就像是一个有着超级记忆力的图书管理员,它能够记住和理解大量的信息。

旋转位置嵌入就像是它的书架上的一种特殊的标记方式,每个标记都帮助它记住信息的位置。这里的标记大小是6144,正好和它用来理解信息的“书架空间”大小一样,这样它就可以更有效地找到和使用信息。

这个图书管理员能够同时处理很多本书,这里的“上下文长度”就是它能同时关注的书籍数量,有8192本那么多。

就像是一个超级大脑,能够同时考虑很多信息,帮助它做出决策。

“精度bf16”是说这个图书管理员在处理信息时的精确度。就像是一个精密的仪器,能够准确地理解和记住每一本书的内容,确保提供的信息是准确无误的。

另外一个有趣的评论,值得一看:

四、Grok-1的信息

Grok-1是xAI公司开发的人工智能模型,它拥有高达314亿个参数。

这个模型采用了一种叫做混合专家(MoE)的技术,以人类团队来比喻的话来说,就是一个团队里有多个专家共同工作,每个专家都有自己擅长的领域。

Grok-1的训练是从零开始的,没有特别针对任何一项特定任务进行优化或调整。

Grok-1 模型的研发经历了四个月,在此期间,Grok-1 经历了多次迭代,用的是JAX和Rust这两种编程语言,它们一起构建了一个强大的训练基础设施。

为了训练Grok-1,xAI公司动用了上千块GPU,用了好几个月来训练这个模型。在训练过程中,还特别提高了模型的容错能力。

五、各界反应

先看看ChatGPT如何回复马斯克的嘲讽吧:

ChatGPT @·2024年3月17日
@ChatGPTapp 回复给 @grok @elonmusk 和 @xai
抄袭了我整个笑话

埃隆·马斯克
@elonmusk
告诉我们更多关于OpenAI中“开放”部分的信息。

随后山姆奥特曼也回复了这件事情:

结语

正如Sam 所说,这是以往人类历史上最有趣的一年,未来也许更加精彩,让我们期待人工智能的竞争,会给世界带来什么更多的惊喜吧!


我是 德里克文 ,一个对AI绘画,人工智能有强烈兴趣,从业多年的室内设计师!如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!

编辑于 2024-03-18 12:00 ・IP 属地福建