中存储消息,近日,Red Hat 宣布签署收购 Neural Magic 的协议,Neural Magic 是一家加速生成式 AI(一代 AI)推理工作负载的软件和算法开发商。Red Hat 提到 Neural Magic 在推理性能工程方面的专业知识和对开源的承诺与 Red Hat 的愿景相一致,即高性能 AI 工作负载直接映射到混合云中特定于客户的用例和数据。
Neural Magic 可能不熟悉 HPC-AI 市场。它于 2018 年从麻省理工学院分拆出来,旨在构建用于深度学习的高性能推理软件。Neural Magic 以其 DeepSparse 运行时而闻名,这是一个 CPU 推理包,它利用稀疏性来加速神经网络推理。
少即是好
DeepSparse (github) 最大限度地利用 CPU 基础设施(它类似于 AVX-512 CPU)来运行计算机视觉 (CV)、自然语言处理 (NLP) 和大型语言模型 (LLM)。DeepSparse 引擎专为执行神经网络而设计,以便跨层数据移动保留在 CPU 缓存中。这种优化基于以下观察:AI 层不需要密集(许多连接),而是稀疏(就像人脑一样)。稀疏层的计算速度可能很快,因为许多权重为零,不需要 CPU 或 GPU 周期。
可以通过三种方式创建稀疏网络:
- 修剪涉及训练密集网络并系统地删除对网络输出贡献最小的权重。(即,权重接近于零)
- 稀疏训练将稀疏性直接集成到训练过程中,鼓励权重趋向零。
- 在训练过程中,计划的稀疏性会逐渐增加稀疏度的级别。
虽然稀疏性提供了计算加速和以 GPU 速度在 CPU 上运行的能力,但它并非没有问题。稀疏度的数量会直接影响模型的准确性。过多的稀疏性会降低网络的性能。如果达到正确的稀疏水平,结果将令人印象深刻。下图提供了 CPU (2P AMD Epyc 9654) 和 GPU (Nvidia T4) 上 DeepSparse 的 MLPerf 结果。CPU 的运行速度比(低功耗)GPU 快 13 倍。
假设 GPU 快 10 倍,DeepSparse 仍然可以跟上步伐。结果更加重要,因为数据中心和云中的备用 CPU 周期比 GPU 周期多。
来自 MLPerf Inference v3.0 Datacenter 结果的 CPU (2P Epyc 9654) 和 GPU (Nvidia T4) 基准测试的比较。MLPerf ID:3.0-1472(开放)、3.0-0110(关闭)、3.0-1474(开放)。
然后是 vLLM
vLLM(虚拟大型语言模型)由加州大学伯克利分校开发,是一个社区驱动的开源项目 (github),用于开放模型服务(生成 AI 模型如何推理和解决问题),支持所有关键模型系列、高级推理加速研究和各种硬件后端,包括 AMD GPU、AWS Neuron、Google TPU、Intel Gaudi、Nvidia GPU 和 x86 CPU。Neural Magic 为 vLLM 项目做出了广泛贡献。
vLLM 首次在 Kwon 等人撰写的一篇论文 Efficient Memory Management for Large Language Model Serving with PagedAttention 中引入。该论文确定了当前 LLM 系统中管理 Key-Value 缓存内存的效率低下。这些限制通常会导致推理速度慢和内存占用高。vLLM 旨在通过利用高效的内存管理技术来优化 LLM 的服务和执行。主要特点是:
- 专注于优化的内存管理,以最大限度地提高可用硬件资源的利用率,而不会在运行 LLM 时遇到内存瓶颈。
- 使用动态批处理来调整批处理大小和序列,以更好地适应硬件的内存和计算容量。
- 使用模块化设计,可轻松与各种硬件加速器集成,并跨多个设备或集群进行扩展。
- 利用 CPU、GPU 和内存资源的高效资源利用率
- 提供与现有机器学习框架和库的无缝集成。
与 DeepSparse 类似,vLLM 专注于优化和性能。此外,像 DeepSparse 一样,一堆 GPU 可能会更好;支持不同的硬件后端(包括 CPU)。
返回协议
Red Hat 认为 AI 工作负载必须在混合云中客户数据所在的任何位置运行;这使得灵活、标准化和开放的平台和工具成为必要,因为它们使组织能够选择最符合其独特运营和数据需求的环境、资源和架构。该计划是通过 vLLM 的开放式创新,让更多组织更容易使用一代 AI。
在上述简短的技术背景之后,Red Hat 对 Neural Magic 的兴趣是有道理的。借助 Neural Magic 的技术和性能工程专业知识,Red Hat 可以努力加速实现其对 AI 未来的愿景。Red Hat 旨在应对大规模企业 AI 的挑战,并计划利用开源创新,通过提供
- 从 1B 到 405B 参数规模的开源许可模型可以在混合云中所需的任何位置运行,包括企业数据中心、多个云和边缘。
- 微调功能,使组织能够更轻松地根据其私有数据和使用案例自定义 LLM,从而具有更强的安全足迹。
- 推理性能工程专业知识,从而提高 运营和基础设施效率,以及
- 合作伙伴和开源生态系统和支持结构,支持更广泛的客户选择,从 LLM 和工具到经过认证的服务器硬件和底层芯片架构。
vLLM 是扩展红帽 AI 的开放途径
Neural Magic 将其专业知识和知识与 vLLM 和 DeepSparse 技术相结合,构建了一个开放的企业级推理堆栈,使客户能够跨混合云环境优化、部署和扩展 LLM 工作负载,同时完全控制基础设施选择、安全策略和模型生命周期。Neural Magic 还开发模型优化研究,构建 LLM Compressor(一个统一的库,用于使用最先进的稀疏性和量化算法优化 LLM),并维护一个预优化模型的存储库,以便使用 vLLM 进行部署。
Neural Magic 首席执行官 Brian Stevens 将两家公司的协同作用描述如下:“开源一次又一次地证明,它可以通过社区协作的力量推动创新。在 Neural Magic,我们聚集了一些 AI 性能工程领域的行业顶尖人才,他们的使命是构建开放、跨平台、超高效的 LLM 服务能力。加入红帽不仅是一种文化上的匹配,而且将使大大小小的公司在其 AI 转型之旅中受益。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。