在市场转向 GenAI(例如 ChatGPT)之前,传统的神经网络是许多人关注技术方向。这些类型的神经网络的特点是具有一些“短期”记忆,被称为递归神经网络或RNN。它们在许多“智能”技术(如Apple Siri或Google Translate)中继续使用,并且绝不会过时。
最近,一篇新发表的论文,题为《RWKV:为Transformer Era重新发明RNN》,描述了一个具有GPT级LLM性能的RNN,它也可以像GPT转换器(可并行化)一样直接训练,计算要求降低10倍到100倍。 (即,更少的 GPU)。
这篇论文描述了像 ChatGPT 这样的转换器如何彻底改变了几乎所有的自然语言处理 (NLP) 任务,但内存和计算复杂性会随着序列长度的二次方而变化(即,在模型中添加更多的东西,需要更多的东西来计算更多的计算资源)。相比之下,递归神经网络 (RNN) 在内存和计算需求方面表现出线性缩放(即,向模型添加更多内容,并且将占用成比例/线性数量的计算资源)。然而,由于并行化和可扩展性的限制,RNN 难以与 Transformer 匹配相同的性能。该论文提出了一种新的模型架构,即接受加权键值(RWKV),它将转换器的高效可并行化训练与RNN的高效推理相结合。
初步结果相当惊人。从积极的一面来看,RWKV 方法提供了;
- 在跑步和训练时降低资源使用率(VRAM、CPU、GPU 等)。
- 与具有大上下文大小的转换器相比,计算要求降低 10 到 100 倍。
- 线性缩放到任何上下文长度(转换器以二次方式缩放)
- 在答案质量和能力方面表现同样出色
- 与大多数现有模型相比,模型通常在其他语言(例如中文、日语等)中训练得更好
RWKV模型目前面临的一些挑战是:
- 它对提示格式很敏感;您可能需要更改提示模型的方式。
- 它在需要回溯的任务中较弱,因此请相应地重新排序您的提示(例如,不要说“对于上面的文档,请执行 X”,这将需要回溯。请改为说“对于下面的文档,请执行 X”)
RWKV (wiki) 也是 Linux 基金会下的一个开源的、由赞助商支持的非营利性组织。他们的目标是结合最好的 RNN 和 transformer 技术,包括出色的性能、快速推理、训练、VRAM、“无限”上下文长度和自由句子嵌入。此外,与 LLM 不同,RWKV 是 100% 无注意力的。
像RWKV这样的项目的影响是巨大的。RWKV 模型无需购买(租用)100 个 GPU 来训练 LLM 模型,而是可以以不到 10 个 GPU 的成本提供类似的结果。
HuggingFace 上提供了一个预训练、微调的 7B 世界模型(在更大、更多样化的数据集上训练的基础模型,其中包括来自 100 多种语言的样本,并经过部分指令训练)。)
来源 https://arxiv.org/pdf/2305.13048.pdf
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。