整理 | 朱珂欣
出品 | CSDN(ID:CSDNnews)
众所周知,去年初创公司 Stability AI 发布的 AI 图像生成工具 Stable Diffusion,成为一种革命性的图像模型,也使 AI“文生图”实现了飞速的发展。
满载着大家对其“不再局限于开发图像生成”和“开源”的期待,在 4 月 20 日, Stability AI 宣布推出开源大型语言模型(LLM)—— StableLM。
(图源:Stability AI 官方博客截图)
小参数大训练,开源备受热捧
据 Stability AI 官方报道,StableLM 模型还处于 Alpha 阶段,参数比较少,只有 30 亿和 70 亿个参数,之后还会推出有 150 亿到 650 亿参数的模型。作为一个类 ChatGPT 模型,StableLM 模型可以生成文本和代码,并为一系列下游应用程序提供动力,能为小而高效的模型通过适当的培训提供高性能。
然而,与 ChatGPT、Bard 等模型相比,StableLM 最大的“优势”莫过于可供每一个人下载并部署在本地,就连笔记本也可以跑起来。
正如 Stability AI 在报道中坦言的:“语言模型将成为我们数字经济的支柱,我们希望每个人都在他们的设计中拥有发言权。”
StableLM 目前已在 GitHub 开源,其高性能低消耗等特点快速吸引了一大波AI爱好者的关注,不到一天时间,星标已接近 6000 Stars。
(图源:GitHub
写文案、编代码,还支持商业化
值得一提的是,StableLM 的发布主要得益于 Stability AI 在 EleutherAI (一个非营利性研究中心)开源早期语言模型方面的经验,其语言模型包括 GPT-J 、 GPT-NeoX 和 Pythia套件,它们基于 The Pile 开源数据集训练。
StableLM是基于一个新的实验数据集训练出来的,该数据集基于The Pile构建,但规模是原来的3倍,包含1.5万亿个标记内容。尽管其参数只有30到70亿(相比之下,GPT-3有1750亿个参数),但这个数据集的丰富性使得StableLM在对话和编码任务中表现出惊人的高性能。
Stability AI 还表示,作为概念验证,他们还使用了斯坦福大学 Alpaca程序对模型进行了微调,使用了五个最近的对话代理数据集的组合:斯坦福大学的Alpaca、Nomic-AI的gpt4all、RyokoAI 的ShareGPT52K 数据集、Databricks 实验室的 Dolly 和 Anthropic 的 HH,并把这些模型发布为 StableLM-Tuned-Alpha。
目前,在官方博客中, Stability AI 也展示了 70 亿参数微调模型在“文本对话、创作内容、编写代码”几个方面的示例:
(图源: Stability AI 官方博客截图)
(图源: Stability AI 官方博客截图)
(图源: Stability AI 官方博客截图)
不仅如此,StableLM模型还允许商业化,但开发人员需要遵守CCBY-SA-4.0许可条款之下,自由地检查、使用和调整 StableLM 基础模型。
“大方开源”遭来非议
伴随着 StableLM 在 GitHub 上的开源,国内外网友也展开了热议,而万万没想到的是,许多网友在试用后,竟开始疯狂抨击 StableLM 的效果:
但是,也有网友帮忙解释道:
此外, StableLM 模型“开源”的安全性等问题也备受大家关注。
众所周知,去年在 Stable Diffusion 发布后,Stability AI 遭到了很多艺术家的投诉和起诉。因此,很多人对 StableLM 表示怀疑:“ 不知道是否还会引发诉讼”、“害怕又发生剽窃问题”……
与此同时,不少人担心有人会利用开源来撰写钓鱼链接的文案和协同软件攻击等。
对此, Stability AI 官方表示:“我们开源我们的模型,以提高透明度并促进信任。研究人员可以'深入了解'来验证性能,研究可解释性技术,识别潜在风险并帮助制定保障措施” 。
参考链接:
https://stability.ai/blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models
https://techcrunch.com/2023/04/19/stability-ai-releases-chatgpt-like-language-models/?guccounter=1
https://news.ycombinator.com/item?id=35629127
https://github.com/Stability-AI/StableLM
☞孟晚舟:华为期待通过软件开源来实现产业生态繁荣;马斯克暗示或起诉 OpenAI;Node.js 20 发布|极客头条
☞马斯克发怒,称要起诉微软:他们使用 Twitter 数据进行非法训练!
☞聚焦金融科技、汽车出行,2023 CSDN行业技术峰会(CITS)深圳站重磅开幕
比如sd-v1-4、sd-v1-5、sd-v2(简写成SD1.5、SD2.0)之类的大
模型
,这些都是S
table
-
Diff
us
ion
自带的大
模型
,分别是1.4、1.5和2.0版本。目前的话1.5版本更好用一些,但是基本没有人会用自带的大
模型
,因为效果很差。
但是,大家如果想自己练大
模型
的话,SD系列是不错的基础
模型
,因为他们比较庞杂,什么风格都有,属于中性
模型
。
luj_1768:
怒斥学生用 ChatGPT 代写作业,教授发帖:他们的思维能力正在退化!
Peter(阿斯拉达):
48 岁谷歌前员工离职 3 年,被 189 亿元天价聘回!网友:打工爽文照进现实?...
胡椒粉02:
48 岁谷歌前员工离职 3 年,被 189 亿元天价聘回!网友:打工爽文照进现实?...