2024-11-14 18:16:33
来 源
中存储
Redhat红帽
Red Hat 收购规划了开放加速 AI 的道路。

中存储消息,近日,Red Hat 宣布签署收购 Neural Magic 的协议,Neural Magic 是一家加速生成式 AI(一代 AI)推理工作负载的软件和算法开发商。Red Hat 提到 Neural Magic 在推理性能工程方面的专业知识和对开源的承诺与 Red Hat 的愿景相一致,即高性能 AI 工作负载直接映射到混合云中特定于客户的用例和数据。

Neural Magic 可能不熟悉 HPC-AI 市场。它于 2018 年从麻省理工学院分拆出来,旨在构建用于深度学习的高性能推理软件。Neural Magic 以其 DeepSparse 运行时而闻名,这是一个 CPU 推理包,它利用稀疏性来加速神经网络推理。

少即是好

DeepSparse (github) 最大限度地利用 CPU 基础设施(它类似于 AVX-512 CPU)来运行计算机视觉 (CV)、自然语言处理 (NLP) 和大型语言模型 (LLM)。DeepSparse 引擎专为执行神经网络而设计,以便跨层数据移动保留在 CPU 缓存中。这种优化基于以下观察:AI 层不需要密集(许多连接),而是稀疏(就像人脑一样)。稀疏层的计算速度可能很快,因为许多权重为零,不需要 CPU 或 GPU 周期。

可以通过三种方式创建稀疏网络:

  1. 修剪涉及训练密集网络并系统地删除对网络输出贡献最小的权重。(即,权重接近于零)
  2. 稀疏训练将稀疏性直接集成到训练过程中,鼓励权重趋向零。
  3. 在训练过程中,计划的稀疏性会逐渐增加稀疏度的级别。

虽然稀疏性提供了计算加速和以 GPU 速度在 CPU 上运行的能力,但它并非没有问题。稀疏度的数量会直接影响模型的准确性。过多的稀疏性会降低网络的性能。如果达到正确的稀疏水平,结果将令人印象深刻。下图提供了 CPU (2P AMD Epyc 9654) 和 GPU (Nvidia T4) 上 DeepSparse 的 MLPerf 结果。CPU 的运行速度比(低功耗)GPU 快 13 倍。

假设 GPU 快 10 倍,DeepSparse 仍然可以跟上步伐。结果更加重要,因为数据中心和云中的备用 CPU 周期比 GPU 周期多。

来自 MLPerf Inference v3.0 Datacenter 结果的 CPU (2P Epyc 9654) 和 GPU (Nvidia T4) 基准测试的比较。MLPerf ID:3.0-1472(开放)、3.0-0110(关闭)、3.0-1474(开放)。(来源: 神经魔法)

来自 MLPerf Inference v3.0 Datacenter 结果的 CPU (2P Epyc 9654) 和 GPU (Nvidia T4) 基准测试的比较。MLPerf ID:3.0-1472(开放)、3.0-0110(关闭)、3.0-1474(开放)。

然后是 vLLM

vLLM(虚拟大型语言模型)由加州大学伯克利分校开发,是一个社区驱动的开源项目 (github),用于开放模型服务(生成 AI 模型如何推理和解决问题),支持所有关键模型系列、高级推理加速研究和各种硬件后端,包括 AMD GPU、AWS Neuron、Google TPU、Intel Gaudi、Nvidia GPU 和 x86 CPU。Neural Magic 为 vLLM 项目做出了广泛贡献。

vLLM 首次在 Kwon 等人撰写的一篇论文 Efficient Memory Management for Large Language Model Serving with PagedAttention 中引入。该论文确定了当前 LLM 系统中管理 Key-Value 缓存内存的效率低下。这些限制通常会导致推理速度慢和内存占用高。vLLM 旨在通过利用高效的内存管理技术来优化 LLM 的服务和执行。主要特点是:

  • 专注于优化的内存管理,以最大限度地提高可用硬件资源的利用率,而不会在运行 LLM 时遇到内存瓶颈。
  • 使用动态批处理来调整批处理大小和序列,以更好地适应硬件的内存和计算容量。
  • 使用模块化设计,可轻松与各种硬件加速器集成,并跨多个设备或集群进行扩展。
  • 利用 CPU、GPU 和内存资源的高效资源利用率
  • 提供与现有机器学习框架和库的无缝集成。

与 DeepSparse 类似,vLLM 专注于优化和性能。此外,像 DeepSparse 一样,一堆 GPU 可能会更好;支持不同的硬件后端(包括 CPU)。

返回协议

Red Hat 认为 AI 工作负载必须在混合云中客户数据所在的任何位置运行;这使得灵活、标准化和开放的平台和工具成为必要,因为它们使组织能够选择最符合其独特运营和数据需求的环境、资源和架构。该计划是通过 vLLM 的开放式创新,让更多组织更容易使用一代 AI。

在上述简短的技术背景之后,Red Hat 对 Neural Magic 的兴趣是有道理的。借助 Neural Magic 的技术和性能工程专业知识,Red Hat 可以努力加速实现其对 AI 未来的愿景。Red Hat 旨在应对大规模企业 AI 的挑战,并计划利用开源创新,通过提供

  • 从 1B 到 405B 参数规模的开源许可模型可以在混合云中所需的任何位置运行,包括企业数据中心、多个云和边缘。
  • 微调功能,使组织能够更轻松地根据其私有数据和使用案例自定义 LLM,从而具有更强的安全足迹。
  • 推理性能工程专业知识,从而提高 运营和基础设施效率,以及
  • 合作伙伴和开源生态系统和支持结构,支持更广泛的客户选择,从 LLM 和工具到经过认证的服务器硬件和底层芯片架构。

vLLM 是扩展红帽 AI 的开放途径

Neural Magic 将其专业知识和知识与 vLLM 和 DeepSparse 技术相结合,构建了一个开放的企业级推理堆栈,使客户能够跨混合云环境优化、部署和扩展 LLM 工作负载,同时完全控制基础设施选择、安全策略和模型生命周期。Neural Magic 还开发模型优化研究,构建 LLM Compressor(一个统一的库,用于使用最先进的稀疏性和量化算法优化 LLM),并维护一个预优化模型的存储库,以便使用 vLLM 进行部署。

Neural Magic 首席执行官 Brian Stevens 将两家公司的协同作用描述如下:“开源一次又一次地证明,它可以通过社区协作的力量推动创新。在 Neural Magic,我们聚集了一些 AI 性能工程领域的行业顶尖人才,他们的使命是构建开放、跨平台、超高效的 LLM 服务能力。加入红帽不仅是一种文化上的匹配,而且将使大大小小的公司在其 AI 转型之旅中受益。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。