2022-09-16 08:45:57
来 源
中存储
存储器/芯片
SambaNova公司的SN30 采用 7nm 台积电工艺节点制造,将 860 亿个晶体管封装在一个芯片中。

SambaNova 表示,其最新的芯片可以大大优于 Nvidia 的 A100 芯片,至少在机器学习工作负载方面是这样。

初创公司 SambaNova 称其芯片产品性能远超 Nvidia

这家总部位于帕洛阿尔托的人工智能初创公司本周公布了其 DataScale 系统和 Cardinal SN30 加速器,该公司声称该加速器能够提供 688 TFLOPS 的 BF16 性能,是英伟达 A100 的两倍。

然而,在机器学习训练工作量方面,SambaNova 表示差距更大。该公司声称其基于 SN30 的 DataScale 系统在训练 130 亿参数 GPT 模型时比 Nvidia 的 DGX A100 服务器快 6 倍,至少根据其内部基准测试。

SN30 采用 7nm 台积电工艺节点制造,将 860 亿个晶体管封装在一个芯片中。与当今市场上的其他高性能加速器相比,该芯片本身有点不合常规,因为它不是 GPU、CPU 或传统的 FPGA。

SambaNova 将芯片描述为可重构数据流单元或 RDU。“可重构性是架构的关键。因此,与具有固定元素的 GPU 或 CPU 不同,将其视为芯片上的计算和内存阵列,”SambaNova Systems 产品高级副总裁 Marshall Choy 告诉The Register

在许多方面,RDU 都让人联想到 FPGA,尽管正如 Choy 所指出的,它远没有那么精细。

根据 Choy 的说法,最接近的比较是粗粒度可重构架构 (CGRA),它通常缺乏 FPGA 的门级控制,但受益于更低的功耗和更快的重新配置时间。

“我们认为我们的芯片和硬件是软件定义的,因为我们实际上是在重新配置每个输入,以根据正在执行的操作员的需求进行配置,”Choy 说。

例如,虽然该芯片缺少您可能在专用 AI 加速器中找到的大型矩阵数学引擎,但该芯片可以重新配置自身以实现相同的结果。Choy 解释说,这是使用 SambaNova 的软件堆栈完成的,该堆栈提取常见的并行模式。

缓解内存瓶颈

Choy 指出,SN30 的可配置性只是等式的一部分,内存是另一个。

该芯片具有 640MB SRAM 缓存,每个插槽与更大 TB 的外部 DRAM 相结合。Choy 声称这种方法——相对较小的缓存具有大量外部 DRAM 容量——使公司的技术能够更有效地适应大型自然语言模型 (NLP)。

来自 SambaNova 的论点似乎是,要将这些大型模型与现成的 GPU 一起使用,您需要将大量这些处理器放入一个系统中,并将它们的板载内存汇集在一起​​,以便在访问时保存所有数据,而您需要更少的 SN30 芯片,因为它们可以将模型存储在其大型外部 DDR 连接的 DRAM 中。

例如,您可能有一个 800GB 型号,因此需要 10 个 80GB Nvidia GPU 才能将其全部保存在内存中,但您可能不需要 10 个 GPU 来执行任务,因此您在不需要的硅片上浪费金钱、能源和空间. 您可以改为使用一些 SN30 并使用它们相当大的外部 DRAM 来保存模型,或者 SambaNova 的逻辑如此。

“如果你看看 NLP,例如,Nvidia 和其他所有人都只是快速计算。我们需要 X 数量的内存,因此我们需要这么多 GPU,”Choy 说。“我们所做的是构建我们的系统以提供比基于 Nvidia 的 [80GB-per-GPU] 系统多 12.8 倍的内存”

人工智能数据中心即服务

与 Nvidia 不同,SambaNova 不销售用于集成到 OEM 系统或 PCIe 卡中的 GPU 芯片。SN30 仅作为完整系统的一部分提供,旨在与公司的软件堆栈一起使用。

“最小的消费单位将是我们提供的完整的八路系统,”Choy 说。

事实上,这些系统是在具有集成供电和网络功能的机架中运输的。在这方面,DataScale 更可与 Nvidia 的 DGX 服务器相媲美,后者是为使用芯片巨头专有交换机的机架级部署而设计的。

四个 DataScale 系统可以安装到一个机架中,该公司声称它可以在大规模部署中扩展到多达 48 个机架。

除了硬件和软件之外,该公司还为不具备开发和培训自己所需的专业知识或兴趣的客户提供经过全面培训的基础模型。

Choy 表示,这是客户经常提出的要求,他们更愿意专注于与优化数据集相关的数据科学和工程,而不是训练模型。

然而,对于许多客户来说,人工智能基础设施和软件仍然非常昂贵,单个系统通常要花费数十万美元。

认识到这一点,SambaNova 计划从一开始就将其 DataScale 和 SambaFlow 软件套件作为订阅服务提供。

Choy 声称,与直接购买 AI 基础设施相比,该方法将使客户能够更快地获得投资回报,并且风险更低。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。