新的 MLPerf Storage v1.0 基准测试结果表明，存储系统在 AI 模型训练性能中发挥着关键作用

2024-09-26 15:49:37

来源
中存储

超算行业

随着加速器技术的进步和数据集规模的不断增加，ML 系统提供商必须确保其存储解决方案能够满足计算需求。

MLCommons 宣布了其行业标准 MLPerf Storage v1.0 基准测试套件的结果，该套件旨在以架构中立、具有代表性和可重现的方式衡量机器学习（ML）工作负载的存储系统的性能。结果表明，随着加速器技术的进步和数据集规模的不断增加，ML 系统提供商必须确保其存储解决方案能够满足计算需求。

新的 MLPerf Storage v1.0 基准测试结果表明，存储系统在 AI 模型训练性能中发挥着关键作用

这是 ML 系统快速变化的时代，一个技术领域的进步推动了其他领域的新需求。高性能 AI 训练现在需要既大规模又高速的存储系统，以免访问存储的数据成为整个系统的瓶颈。随着 MLPerf 存储基准测试结果的 v1.0 版本发布，很明显，存储系统提供商正在创新以应对这一挑战。

1.0 版存储基准测试开辟了新天地

MLPerf 存储基准测试是第一个也是唯一一个公开、透明的基准测试，用于测量各种 ML 训练场景中的存储性能。它模拟了多个场景和系统配置的存储需求，涵盖一系列加速器、模型和工作负载。通过模拟加速器的“思考时间”，基准测试可以生成准确的存储模式，而无需运行实际训练，从而使所有人都更容易访问它。基准测试的重点是给定存储系统的跟上速度的能力，因为它要求模拟的加速器保持所需的利用率水平。

基准测试中包含三个模型，以确保测试各种 AI 训练模式：3D-UNet、Resnet50 和 CosmoFlow。这些工作负载提供各种样本大小，从数百 MB 到数百 KB 不等，以及从几毫秒到几百毫秒的广泛模拟 “思考时间”。

该基准测试模拟 NVIDIA A100 和 H100 模型，作为当前可用加速器技术的代表。与 v0.5 轮中的早期 V100 加速器相比，H100 加速器将 3D-UNet 工作负载的每批计算时间缩短了 76%，将通常对带宽敏感的工作负载转变为对延迟更敏感的工作负载。

此外，MLPerf Storage v1.0 还包括对分布式训练的支持。分布式训练是基准测试的一个重要场景，因为它代表了一种常见的实际做法，可以更快地训练具有大型数据集的模型，并且它为存储系统带来了特定的挑战，不仅在提供更高的吞吐量方面，而且在同时为多个训练节点提供服务方面。

V1.0 基准测试结果显示 ML 系统存储技术的性能有所提高

提交给基准测试的工作负载范围广泛，反映了不同存储系统和架构的广泛范围和多样性。这证明了 ML 工作负载对所有类型的存储解决方案的重要性，并展示了该领域正在发生的积极创新。

“MLPerf Storage v1.0 结果表明存储技术设计焕然一新，”MLPerf Storage 工作组联合主席 Oana Balmau 说。“目前，似乎还没有就 ML 系统中存储的'最佳'技术架构达成共识：我们收到的 v1.0 基准测试提交的内容采用了各种独特且富有创意的方法来提供高速、大规模存储。”

分布式训练场景中的结果显示了主机数量、每台主机的模拟加速器数量和存储系统之间需要的微妙平衡，以便以所需的利用率为所有加速器提供服务。添加更多节点和加速器来为越来越大的训练数据集提供服务会增加吞吐量需求。分布式训练增加了另一个变化，因为历史上不同的技术（具有不同的吞吐量和延迟）一直用于在节点内和节点之间移动数据。

单个节点可以支持的最大加速器数量可能不受节点自身硬件的限制，而是受在分布式环境中将足够数据快速移动到该节点的能力的限制（每个模拟加速器高达 2.7 GiB/s）。存储系统架构师现在几乎没有可用的设计权衡：系统必须具有高吞吐量和低延迟，以保持大规模 AI 训练系统在峰值负载下运行。

“正如我们预期的那样，新的、更快的加速器硬件显著提高了存储的标准，很明显，存储访问性能已成为整体训练速度的门控因素，”MLPerf 存储工作组联合主席 Curtis Anderson 说。“为了防止昂贵的加速器闲置，系统架构师正在转向他们可以采购的最快的存储，而存储提供商也正在进行创新。”

MLPerf 存储 v1.0

MLPerf Storage 基准测试是通过十几家领先的存储解决方案提供商和学术研究小组的协作工程流程创建的。开源和同行评审的基准测试套件为竞争提供了公平的竞争环境，从而推动了整个行业的创新、性能和能源效率。它还为采购和调整 AI 训练系统的客户提供关键技术信息。

来自众多技术提供商的 v1.0 基准测试结果表明，行业认识到高性能存储解决方案的重要性。MLPerf Storage v1.0 包括来自 13 个提交组织的 100 多个性能结果：DDN、Hammerspace、Hewlett Packard Enterprise、华为、IEIT SYSTEMS、Juicedata、Lightbits Labs、MangoBoost、Nutanix、Simplyblock、Volumez、WEKA 和燕荣科技。

“我们很高兴看到如此多的大小存储提供商参与首创的 v1.0 存储基准测试，”MLCommons 的 MLPerf 负责人 David Kanter 说。“它表明该行业正在认识到需要不断创新存储技术以跟上 AI 技术堆栈的其他部分，并且衡量这些技术性能的能力对于成功部署 ML 训练系统至关重要。作为公开、公平和透明的基准测试的值得信赖的提供商，MLCommons 确保技术提供商知道他们需要达到的性能目标，并且消费者可以购买和调整 ML 系统，以最大限度地提高其利用率，并最终获得投资回报。

MLCommons 邀请利益相关者加入 MLPerf 存储工作组，并帮助 MLCommons 继续发展基准测试。未来的工作包括改进和增加加速器仿真和 AI 训练场景。

要查看 MLPerf Storage v1.0 的结果，请访问存储基准测试结果。

关于 MLCommons

MLCommons 是构建 AI 基准测试的全球领导者。它是一个开放的工程联盟，其使命是通过基准测试和数据让 AI 更好地为每个人服务。MLCommons 的基础始于 2018 年的 MLPerf 基准测试，该基准测试迅速扩展为一组行业指标，以衡量机器学习性能并提高机器学习技术的透明度。MLCommons 与其 125+ 成员、全球技术提供商、学者和研究人员合作，专注于协作工程工作，通过基准和指标、公共数据集和 AI 安全测量为整个 AI 行业构建工具。

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

新的 MLPerf Storage v1.0 基准测试结果表明，存储系统在 AI 模型训练性能中发挥着关键作用

同有科技新一代端到端自主可控全闪集中式存储盛大发布

HPE推出 Cray Storage Systems C500存储系统，面向中低端HPC/AI 计算集群

存储系统市场2023年收入下降7%，仅华为保持增长

权威测试组织SPEC评测结果公布，忆联助力新华三服务器再创佳绩

大白话讲讲分布式存储系统的架构设计以及容错架构

新型 Linux Rootkit PUMAKIT 使用先进的隐身技术躲避检测

OpenAI就ChatGPT宕机致歉：部分服务恢复，Sora仍处于瘫痪状态

N-able 收购现有战略合作伙伴 Adlumin

美方指控“与中国有关黑客”入侵多家电信公司网络，外交部驳斥

IDC：英方软件第九次获中国专业灾备软件厂商第一

阿里云盘回应相册陌生照片“乱入”问题：已快速修复，用户影响面较小

Backblaze：如何扩展公司的云存储？

以色列初创企业Datafy在种子轮融资600万美元

Cloudflare宣布R2的主要更新，包括事件通知和GCS支持

IDrive Backup新功能：云对云备份Google数据

60国签署巴黎AI峰会声明，美英缺席

富士通横滨国立大学使用 Fugaku 超级计算机推进台风龙卷风预报

Jülich 购买 D-Wave 量子计算机加强量子研究

Trane 将液体冷却集成到 AI 和 HPC 的热管理中

D-Wave 宣布举办 Qubits 2025 量子计算用户大会

Trendfocus 磁带和归档存储服务 CQ3 '24 季度更新报告

适用于 IBM Spectrum Scale 的联想分布式存储解决方案

CES 2025：威刚/XPG Schowcasing 工业和游戏存储设备

AI推理将驱动AIDC需求提升数据中心行业有望复苏

美光采样 6550 ION PCIe Gen5 高达 61TB 的 E3 数据中心 SSD

中国信通院发布《智能化医疗装备产业蓝皮书（2024年）》

使用 Ardis DDP10EF 和 SupremeRAID SR-1000 for M&E 解锁更高水平的媒体性能

多地点运营的企业，分布式管理与集中式管理哪种更具有网络保护的优势？

数字政府一体化建设白皮书（2024年）

Orico公司联合西部数据推出面向创作者的混合存储产品

科技要闻

IDC 发布《FutureScape 2025 年全球制造业预测 – 亚太地区（不包括日本）影响》报告

60国签署巴黎AI峰会声明，美英缺席

一月手机激活量统计数据出炉：华为领跑，小米崛起，苹果失速！

Nasuni 2024年财报创纪录

慧荣Silicon Motion公布24 财年第四季度财务业绩

新的 MLPerf Storage v1.0 基准测试结果表明，存储系统在 AI 模型训练性能中发挥着关键作用

猜你喜欢

科技要闻