RWKV
RWKV "Raven"模型的跑团能力:14B英文很强,7B中文也好玩。RWKV将对GPT实施降维打击。
目前 RWKV 所有模型的介绍(注意 RWKV 是 100% RNN,目前地球只有我能用 RNN 做到这样): [文章: 发布几个RWKV的Chat模型(包括英文和中文)7B/14B欢迎大家玩] 下面是 7B Raven-v7-ChnEng 在 ChatRWKV v2 运行的效果(无修改,无重试): [图片] [图片] 可见 7B 有时会省略细节,需要你去引导。其实如果写好程序,允许编辑电脑的回答,在电脑的早期回答加入丰富的细节,它也能一直保持细节丰富的风格。注意,目前中文只用了【20G普通+200G网文…
更新:下面是非常旧的回答了。 目前最新的GUI,可以在Win Linux Mac运行: https://github.com/josStorer/RWKV-Runner/releases 目前新的模型:v5 world: BlinkDL/rwkv-5-world at main 和 v4 world: BlinkDL/rwkv-4-world at main =========== !!!下面是非常旧的回答!!! !!!下面是非常旧的回答!!! !!!下面是非常旧的回答!!! !!!下面是非常旧的回答!!! !!!下面是非常旧的回答!!! !!!下面是非常旧的回答!!! 感谢关注,下面…
发布几个RWKV的Chat模型(包括英文和中文)7B/14B欢迎大家玩
目前 RWKV 有大量模型,对应各种场景,各种语言,请选择合适的模型: Raven 模型:适合直接聊天,适合 +i 指令。有很多种语言的版本,看清楚用哪个。适合聊天、完成任务、写代码。可以作为任务去写文稿、大纲、故事、诗歌等等,但文笔不如 testNovel 系列模型。Novel-ChnEng 模型:中英文小说模型,可以用 +gen 生成世界设定(如果会写 prompt,可以控制下文剧情和人物),可以写科幻奇幻。不适合聊天,不适合 +i 指令。Novel-Ch…
刚扫了下paper,写个简单的解读,如有错误/遗漏欢迎评论区指出~ 首先,在模型高度同质化的今天敢于往不太流行的架构上砸资源而且训练到效果不错是值得respect的,值得关注后续scale up的潜力,甚至其余的efficient transformer架构scale up后的效果也值得重新探索一下。 前面之所以用了efficient transformer而不是宣传里的RNN是因为这个架构我觉得其实还是更偏向transformer一点,按照论文里给的内容简单溯源拆解一下: [图片] 首先整…
RWKV进展:一键生成论文,纯CPU高速INT4,纯CUDA脱离pytorch,ctx8192不耗显存不变慢
RWKV模型介绍: PENG Bo:发布几个RWKV的Chat模型(包括英文和中文)7B/14B欢迎大家玩 最新7B Raven v11模型,原生支持 ctx8192(目前是英文词表,相当于 5000 汉字)。 RWKV的特点是,无论ctxlen多少,速度不变,显存占用恒定。一键生成“论文”(使用 https://github.com/l15y/wenda “闻达”界面),无联网,无修改,输入任何话题(这里只输入了《现代基因工程技术:培育会飞行的猪》),鼠标一点就全自动写: [图片] [图片] [图片] [图片] [图片] 可见,这个模型是真能水。 =…
1、写在前面,RWKV是一个不错的线性RNN模型; 2、RNN的优势是推理友好,线性RNN的优势还包括训练可并行,不过要注意的是RWKV的官方实现方式是CUDA实现的递归,也就是说RWKV并没有用到训练可并行这一点,所以单从训练速度来看,是不是线性的没太大区别(或者说模型足够大时,直接递归的并行效率已经足够了); 3、看得出RWKV的作者认真做了不少事情,但他(在国内)的PR文风显然会让不少人不喜甚至反感(也可能只是我的问题); 4…
RWKV 14B 无微调无RLHF就能遵循各种指令,且在 3090 速度已达 23 token/s
我发现 RWKV 14B ctx8192 直接用 Alpaca prompt 就能遵循各种指令。无微调,无 RLHF,纯语言模型就行。 体验链接: ModelScope 魔搭社区 点击下面的 examples 然后可以编辑 Instruct 内容(注意这是 14B 英文模型,只懂一点多国语言)。Tips:还可以试试 "Expert Response" 或 "Expert Long Response" 或 "Expert Full Response"。 [图片] [图片] ChatRWKV v2 现在可以编译 CUDA kernel 优化 INT8 运行 (23 token/s on 3090): …
RWKV和ExponentialDecay的历史(参考RWKV没问题,但请勿攻击RWKV)
首先 AFT 和 LinearTransformer( https://arxiv.org/pdf/2006.16236.pdf ) 都是旧论文,区别是:AFT的headsize=1,LinearTransformer的headsize > 1。然后RWKV最早做了加ExponentialDecay转RNN方案(在RWKV-2-RNN,是2022年初): RWKV-4 = AFT + ExponentialDecay现在RetNet也用ExponentialDecay方案,将AFT换成LinearTransformer,headsize=256: RetNet = LinearTransformer + ExponentialDecay同时也有代价:如果headsize=256,那么state扩…
刚关注RWKV不到两周,论文就出来了,挺奇妙。 理解RWKV的两个关键点是: ComplexitySequential Decoding首先从Linear Transformer讲起,然后再介绍RWKV paper中反复提到的AFT,最后再看RWKV。 NOTE:为了大家方便比较几篇paper的公式,文本统一了三篇paper中的符号,所有公式重写了,所以和原文对比时请注意。1. 理解Linear Transformer论文链接: Transformers are rnns: Fast autoregressive transformers with linear attention …
RWKV是通往1T+模型的强力候选:RNN完全有能力建模长程相关性
很多人认为RNN难以建模长程相关性,那是传统RNN。而RWKV是高科技,同时拥有GPT、RNN、CNN三种模式,可以自由选择任何模式(全部等价),因此拥有所有架构的所有优点。 [文章: 参与 ChatRWKV 项目,做开源 ChatGPT(可以在每个人电脑和手机直接运行的)] 我测试了10000篇Pile中超过ctx4096的文档,RWKV 1B5/3B/7B/14B 的效果如下: [图片] 可见,1B5模型在ctx1500停(传统LSTM到ctx100就会停),而3B和7B和14B可以继续走,而且越来越强。…
TL;DR:MetaFormer (Token mixing + channel mixing) 在序列建模上的又一个胜利。 IntroMetaFormer既然都能把PoolFormer(把token mixing的self-attention换成max-pooling)在Vision Transformer上做work,从一定程度上就已经说明了Token mixing的重要程度并没有那么大。 此外也有一大堆工作显示self-attention没有想象中的那么重要,如 [1]显示 (data dependent的)random attention就能work的很好。并且很多工作都显示FFN laye…
RWKV-5 的训练进展,与 SOTA GPT 模型的性能对比
正在训练 RWKV-5 World v2 1.6/3/7B 多语言模型(支持世界所有100+语言,同时代码能力也强),测试性能如下: [图片] [图片] 从前的 RWKV-4 World v1 和 Pythia 相当,现在大家都升级了,所以我们也升级。 从趋势看,训练完成 100% 的 RWKV-5 World v2 1.6B 英文能力(avg%)可达 62% 的 SOTA 水准。 同时,它的多语言能力(xavg%)显著超过现有的同规模模型(而且在同等参数下 RWKV 的速度和显存占用都更优)。 需要说明,我在训练时没有加入…
rwkv.cpp: CPU 也能跑的 RNN 中文语言大模型
最近 LLM(大语言模型)实在火爆,出了不少开源模型,比如 Alpaca [1]、ChatGLM[2]、BELLE[3] 等等,让每个人都有机会运行和训练专属自己的 LLM,我也迫不及待了。但是,熟悉我的老读者朋友应该知道,虽然我是搞算法的,也发过几篇论文,但我是走的是贫穷科研的路线,一张显卡都没有。像 ChatGLM-6B 这种模型,在我的小破 Mac 上根本跑不起来。Alpaca 的 CPU 版本虽然能跑,但它中文水平实在太烂了。有没有什么模型不仅中文好,…
RWKV的微调教学,以及RWKV World:支持世界所有语言的生成+对话+任务+代码
首先看RWKV World。请大家一直往后面看,本文后面有详细的RWKV微调教学。 下载: BlinkDL/rwkv-4-world · Hugging Face 带界面的懒人包(一键安装): https://github.com/josStorer/RWKV-Runner (在https://github.com/josStorer/RWKV-Runner/releases 下载,然后放到一个英文目录双击即可)。World 是通用多语言版(英文70%,英文能力最强,代码也强)。World-CHNtuned 是在中文进一步微调版(中文增强,同时降低其它语言和代码能力)。RWKV World …
RWKV CHNtuned 7B 开源中文模型(对话、小说、角色扮演)炼完了v1,欢迎大家玩
现在四个在线DEMO都已升级CHNtuned 7B: ModelScope 魔搭社区 ModelScope 魔搭社区 ModelScope 魔搭社区 CodeWithGPU | 能复现才是好算法 大家可选择排队最少的使用。在线版限制了一次写300,可以把写的加到左边然后继续写。 本地部署用 RWKV-Runner(可以一次写几千): https://github.com/josStorer/RWKV-Runner/releases 角色扮演(很强,你的prompt必须写对,例如这个项目有很多例子): https://github.com/shengxia/RWKV_Role_Playing 输入三体结尾段落(只输入结尾一小段,忽略全书设…
RWKV语言模型从入门到放弃,保姆级Training、Fine-tuning、Lora入坑教程
[图片] 环境 1、安装 CUDA 11.7,Python 3.10 2、安装一些 pip 库和 pytorch 1.13.1+cu117 pip install numpy tokenizers prompt_toolkit pip install torch --extra-index-url https://download.pytorch.org/whl/cu117 --upgrade pip install rwkv --upgradeChatRWKV模型下载地址 https://huggingface.co/BlinkDL [图片] 补充:Pile模型是指基础模型,仅做了Pile的语料训练,相对比较干净,更适合有自己语料的高手在垂直领域中训练自己的大语言模型。 详…
终于出Paper了,先占个坑,读了再填 =====分割线===== 下面为ChatGPT帮助下完成的初步全文翻译:RWKV:在Transformer时代重新定义循环神经网络Abstract 摘要Transformer已经彻底改变了几乎所有自然语言处理(NLP)任务,但其在序列长度上的内存和计算复杂度呈二次方增长。相比之下,循环神经网络(RNN)在内存和计算需求上呈线性扩展,但由于并行化和可扩展性的限制,难以达到Transformer相同的性能。我们提出了一种新颖的模型架…
谈谈 RWKV 系列的 prompt 设计,模型选择,解码参数设置
所有RWKV模型都在HuggingFace,目前有 World Raven Novel PilePlus Pile 系列: BlinkDL (BlinkDL) 每个模型的能力和prompt都不同。 强烈建议用最新的World系列,适合一切任务。是基底模型?擅长对话?擅长的语言?World✔️✔️World:全球所有语言 World-CHNtuned:中文 还会发布更多 XXXtunedRaven❌✔️Eng99%:英文 Eng49%-Chn49%:中文 以此类推Novel❌❌ChnEng:中文 Chn:中文PilePlus✔️❌英文,数据比Pile更多,更新Pi…
RWKV:一个大模型小团队,要做 AI 时代的安卓
独自一人开发大模型,转身创业并拒掉巨头的橄榄枝。「Interested in working at OpenAI ?」 香港大学物理系毕业的彭博,在今年 2 月 3 日收到了一封来自 OpenAI 的邀约邮件。吸引这家 AI 巨头的,是他作为独立开发者发布的一个开源模型:RWKV。信中并没有包含具体薪资。不过,此前有消息称 OpenAI 为软件工程师提供的年薪中位数为 92.5 万美元。 [图片] 当时国内还少有人关注到这个创新的模型设计。 彭博回复了邮件:「OpenAI is great, …
微调大语言模型,如何设计数据格式?【解答最常见的初学者问题】
答案非常简单: 你想怎么用,就怎么设计数据格式。下面举例说明(以 RWKV World CHNtuned 为例),请仔细阅读。首先,大语言模型如何实现对话?以最新 RWKV-Runner 为例,若使用 World 系列模型,它将对话存储为这种格式: User: 什么是某某某 Assistant: 首先,某某某。然后,某某某。最后,某某某。 总之,某某某,某某某,某某某。 User: 总结下列会议记录: 啦啦啦啦啦啦啦。 啦啦啦啦啦啦啦啦啦啦啦。 啦啦啦啦啦啦啦啦啦。…