UALink 联盟将于年底成立并发布新的GPU连接标准

2024-06-03 15:18:43

来源
中存储

超算行业

这个被称为 Ultra Accelerator Link （UALink）的初始小组将定义并建立一个开放的行业标准，使 AI 加速器能够更有效地进行通信。

以 GPU 为例。SIMD的伟大之岛，使矩阵数学的轻松工作变得轻松。它最初设计用于在计算机显示器上快速绘制点，后来被 HPC 从业者发现非常有用。进入 GenAI，现在这些小矩阵专家的需求量很大，以至于我们称之为 GPU Squeeze。

知名且占主导地位的市场领导者 Nvidia 已经为 GPU 技术绘制了大部分道路。对于 HPC、GenAI 和大量其他应用程序，连接 GPU 提供了一种解决更大问题和提高应用程序性能的方法。

有三种基本方法可以“连接”GPU。

1. PCI总线：一个标准服务器通常可以在PCI总线上支持4-8个GPU。通过使用GigaIO FabreX内存结构等技术，这个数字可以增加到32个。CXL 也显示出希望，但是，Nvidia 的支持很薄弱。对于许多应用程序，这些可组合的 GPU 域代表了下面提到的 GPU 到 GPU 纵向扩展方法的替代方案。

2. 服务器到服务器互连：以太网或 InfiniBand 可以连接包含 GPU 的服务器。此连接级别通常称为横向扩展，其中速度较快的多 GPU 域由速度较慢的网络连接，形成大型计算网络。自从比特开始在机器之间移动以来，以太网一直是计算机网络的主力军。最近，该规范通过引入超级以太网联盟来提供高性能。事实上，英特尔已经在以太网山上插上了互连旗帜，因为英特尔 Gaudi -2 AI 处理器在芯片上具有 24 个 100 Gb 以太网连接。

英伟达没有加入超级以太网联盟，因为他们在 2019 年 3 月收购 Mellanox 后基本上拥有高性能 InfiniBand 互连市场的唯一所有权。Ultra Ethernet Consortium 旨在成为其他人的“InfiniBand”。需要明确的是，英特尔曾经打着InfiniBand的旗号。

3. GPU 到 GPU 互连：认识到需要快速且可扩展的 GPU 连接，Nvidia 创建了 NVLink，这是一种 GPU 到 GPU 连接，目前可以在 GPU 之间以每秒 1.8 TB 的速度传输数据。还有一个 NVLink 机架级交换机，能够在非阻塞计算结构中支持多达 576 个全连接的 GPU。通过 NVLink 连接的 GPU 称为“pod”，以表示它们有自己的数据和计算域。

就其他人而言，除了用于连接 MI300A APU 的 AMD Infinity Fabric 之外，没有其他选择。与InfiniBand/以太网的情况类似，需要某种“Ultra”竞争对手联盟来填补非Nvidia的“pod空白”。事实也正是如此。

AMD、博通、思科、谷歌、惠普企业（HPE）、英特尔、Meta 和 Microsoft 宣布，他们已联合开发一项新的行业标准，致力于推进纵向扩展 AI 加速器的高速和低延迟通信。

这个被称为 Ultra Accelerator Link （UALink）的初始小组将定义并建立一个开放的行业标准，使 AI 加速器能够更有效地进行通信。通过创建基于开放标准（阅读为“非 Nvidia”）的互连，UALink 将使系统 OEM、IT 专业人员和系统集成商能够为其 AI 连接数据中心的集成、更大的灵活性和可扩展性创建一条途径。

推动 AI 工作负载的纵向扩展

与 NVLink 类似，拥有一个强大、低延迟和高效的纵向扩展网络至关重要，该网络可以轻松地将计算资源添加到单个实例（即将 GPU 和加速器视为一个大系统或“pod”）。

这就是 UALink 和开放的行业规范对于标准化下一代硬件的 AI 和机器学习、HPC 和云应用程序接口至关重要的地方。该小组将开发一种高速、低延迟的互连规范，用于人工智能计算舱中加速器和交换机之间的纵向扩展通信。

1.0 规范将支持在 AI 计算 Pod 中连接多达 1,024 个加速器，并允许在 Pod 中连接到加速器（如 GPU）的内存之间直接加载和存储。UALink 发起人集团已成立 UALink 联盟，预计将于 2024 年第三季度注册成立。1.0 规范预计将于 2024 年第三季度推出，并提供给加入 Ultra Accelerator Link （UALink）联盟的公司。

UALink 联盟将于年底成立并发布新的GPU连接标准

UALink Scale-up Pod 将来自多个服务器的 GPU 合并到一个计算域中（来源：UALink Consortium）竞争造就了奇怪的同床异梦

英伟达的主导地位通过推动竞争对手 AMD、英特尔和博通组建财团清楚地证明了这一点。特别是过去，英特尔在新技术方面经常采取“单打独斗”的策略。在这种情况下，英伟达的压倒性优势一直是所有财团成员的主要动机。

正如所宣布的那样，Ultra Accelerator Link将是一个开放标准。这一决定应该有助于更快地将其推向市场，因为需要讨价还价的 IP 会更少，但考虑到昨天对大规模 AI GPU 矩阵引擎的需求，乐观的 2026 年发布似乎还很遥远。

为了支持UALink的努力，超级以太网联盟（UEC）主席J Metz博士分享了他的热情，“在很短的时间内，技术行业已经接受了AI和HPC所发现的挑战。在寻求提高效率和性能时，像 GPU 这样的互连加速器需要从整体角度考虑。在UEC，我们相信UALink解决pod集群问题的扩展方法补充了我们自己的横向扩展协议，我们期待共同合作创建一个开放的、生态系统友好的、全行业的解决方案，以满足未来的这两种需求。

UALink 联盟将于年底成立并发布新的GPU连接标准

UALink 概述（来源：UALink Consortium）

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

UALink 联盟将于年底成立并发布新的GPU连接标准

红帽Linux企业版被选为6亿美金超算的操作系统

10亿欧元，法国政府入股 Atos

Hyperion Research：2024 年的 11 个 HPC 预测

Fluid Dynamic Sciences 亮相NVIDIA GTC 2024，引领下一代计算流体动力学

新型 Linux Rootkit PUMAKIT 使用先进的隐身技术躲避检测

OpenAI就ChatGPT宕机致歉：部分服务恢复，Sora仍处于瘫痪状态

N-able 收购现有战略合作伙伴 Adlumin

美方指控“与中国有关黑客”入侵多家电信公司网络，外交部驳斥

IDC：英方软件第九次获中国专业灾备软件厂商第一

阿里云盘回应相册陌生照片“乱入”问题：已快速修复，用户影响面较小

Backblaze：如何扩展公司的云存储？

以色列初创企业Datafy在种子轮融资600万美元

Cloudflare宣布R2的主要更新，包括事件通知和GCS支持

IDrive Backup新功能：云对云备份Google数据

60国签署巴黎AI峰会声明，美英缺席

富士通横滨国立大学使用 Fugaku 超级计算机推进台风龙卷风预报

Jülich 购买 D-Wave 量子计算机加强量子研究

Trane 将液体冷却集成到 AI 和 HPC 的热管理中

D-Wave 宣布举办 Qubits 2025 量子计算用户大会

Trendfocus 磁带和归档存储服务 CQ3 '24 季度更新报告

适用于 IBM Spectrum Scale 的联想分布式存储解决方案

CES 2025：威刚/XPG Schowcasing 工业和游戏存储设备

AI推理将驱动AIDC需求提升数据中心行业有望复苏

美光采样 6550 ION PCIe Gen5 高达 61TB 的 E3 数据中心 SSD

中国信通院发布《智能化医疗装备产业蓝皮书（2024年）》

使用 Ardis DDP10EF 和 SupremeRAID SR-1000 for M&E 解锁更高水平的媒体性能

多地点运营的企业，分布式管理与集中式管理哪种更具有网络保护的优势？

数字政府一体化建设白皮书（2024年）

Orico公司联合西部数据推出面向创作者的混合存储产品

科技要闻

IDC 发布《FutureScape 2025 年全球制造业预测 – 亚太地区（不包括日本）影响》报告

60国签署巴黎AI峰会声明，美英缺席

一月手机激活量统计数据出炉：华为领跑，小米崛起，苹果失速！

Nasuni 2024年财报创纪录

慧荣Silicon Motion公布24 财年第四季度财务业绩

UALink 联盟将于年底成立并发布新的GPU连接标准

猜你喜欢

科技要闻