对于运营高性能数据中心的组织来说,冷却是一项重大挑战。随着对计算需求的不断增加,满足这些需求所需的性能也需要提高。随后,高端处理器TDP也在每一代中攀升,我们正在迅速接近用传统空气冷却这些处理器变得不可行的地步。[1] 液体冷却是一个显而易见的答案,但也带来了新的挑战,包括成本、维护问题以及对泄漏和安全的担忧。
在本文中,我们介绍了慧与和英特尔®的最新服务器解决方案,并解释了创新的新设计如何帮助组织部署密集的高性能服务器,同时扩展空气冷却的可行性。我们还介绍了慧与实施的一系列基准测试,探讨了与性能和能效相关的空气冷却和液体冷却之间的权衡。有了这些信息,数据中心经理就可以根据自己的独特需求,就如何最好地发展其基础架构做出明智的决策。
在数据的推动下,计算需求正在上升
根据 IDC Global DataSphere 的最新预测,预计 2022 年至 2026 年间,每年创建、捕获、复制和使用的新数据将翻一番。[2] 在数据增长、新的预测和分析技术以及机器学习和人工智能等竞争要求推动下,计算需求正以类似的速度增长。
如今,高性能系统在从制造业到金融服务、生命科学和数据分析的各种应用中至关重要。制造商依靠 HPC 进行结构设计、计算流体动力学 (CFD) 和机器状态监测。生命科学公司需要大量的计算能力来进行基因组分析、监视、计算化学和图像分析。组织一直在寻找提供额外计算能力的方法,以跟上不断增长的需求,并在竞争中领先一步。
冷却 — 迫在眉睫的数据中心挑战
满足当今数据和计算密集型应用所需的高性能水平正在推动电源和冷却需求的增加。功率、密度、冷却和对可持续性的担忧是几乎所有数据中心运营商的问题。顶级 CPU 的每插槽 TDP 范围从 270 瓦到 350 瓦或更高,下一代 CPU 可能更耗电,每个插槽达到 400 到 500 瓦。[3]
对于对人工智能和机器学习工作负载至关重要的 GPU 来说,挑战更为重大,下一代 TDP 预计将达到 700 瓦。
一个关键问题是,现代处理器中的硅设计越来越多地采用3D技术,组件层叠在一起。这带来了新的热挑战,并要求将外壳温度冷却到更低的水平,以避免组件过热和损坏。[4] 这些相互矛盾的趋势如图1所示。
图1.随着组件TDP的增加,空气冷却正变得不可持续。
使这一挑战更加复杂的是,客户越来越需要高密度机架,将更多的计算能力集成到更小的数据中心占用空间中。如今,三分之二的美国数据中心已经具有每个机架高达16至20 kW的峰值功率需求。[5] 每个机架的功耗正在迅速上升,密集的 HPC 机架已经消耗了 40-60 kW 或更多。[6]
组织将需要做出权衡,要么投资新的冷却技术以适应下一代处理器和GPU,要么满足于功能较弱的处理器和更稀疏的数据中心机架。液体冷却比空气冷却提供更好的传热效率,这已经不是什么秘密了,因此对于许多人来说,液体冷却是一条合乎逻辑的前进道路。
液体冷却
液体冷却涵盖一系列技术,从后门冷却器和热交换器到直接连接的液体冷却板再到浸入式冷却。液体冷却可以带来明显的好处:
提高效率 — 在慧与进行的一项分析中,液体冷却已被证明可将数据中心的电源使用效率 (PUE) 和与冷却相关的电源成本降低多达 87%。[注7] 减少对环境的影响 — 通过更高效的冷却降低功耗可以帮助组织实现环境、社会和治理 (ESG) 目标并减少数据中心的 CO2当量(一氧化碳2e) 足迹。 推迟昂贵的数据中心升级 — 在空间受限的数据中心,液体冷却可以实现更密集的机架配置,从而帮助最大限度地利用可用空间。 提高可靠性和可预测性 — 液体冷却可以通过提供稳定的工作温度、避免过热条件和提高整体可用性来延长组件寿命。
尽管有这些好处,但过渡到液体冷却通常说起来容易做起来难。
充满挑战的过渡
目前,风冷是冷却高性能服务器的主要方式。Intersect268 Research在对来自252个组织的360个HPC站点的调查中发现,58%的受访者专门使用空气冷却。[8] 42%在某些系统中使用液体冷却,其中最大份额使用后门冷却器。只有 23% 的商业组织使用带有设施热交换器的全管道机架。对于大多数人来说,管道仅扩展到其数据中心机架的子集。换句话说,在大多数设施完全采用液体冷却之前,还有很长的路要走。
在决定液体冷却解决方案时,客户必须考虑几个因素:成本、可持续性、维护和易于管理。[9] 在商业和工业 HPC 用户中,大多数用户运营多个集群。根据Intersect360 Research的同一项研究,37%的组织运营着十个或更多的集群,从16个或更少节点的入门级HPC系统到由512个以上节点组成的超级计算机。将这些系统升级到液体冷却会带来技术、物流和财务挑战。其中包括:
操作两个冷却系统而不是一个冷却系统的额外费用 冷却系统缺乏标准化,使多供应商环境中的采用变得复杂 担心腐蚀和安全隐患,例如触电和电弧风险 操作复杂性增加和冷却系统故障风险增加
组织在引入液体冷却时必须考虑多种因素,包括现有数据中心空间、机架组成、电源限制、冷却能力、公用事业成本和预计增长要求。
延长风冷寿命
幸运的是,HPE 和英特尔的新技术为数据中心管理人员提供了在风冷环境中部署最新服务器硬件的灵活性。组织可以利用由第四代英特尔®至强®可扩展处理器提供支持的最新 HPE Cray XD2000 系统,显著扩展空气冷却的可行性。通过部署这些基于 Intel 的系统,组织可以:
帮助最大限度地提高性能,同时最大限度地减少对数据中心的影响 避免对数据中心设施进行昂贵的资本升级 保护软件和硬件方面的现有投资
如图 2 所示,组织可以在不牺牲性能的情况下延长空气冷却的使用寿命,使他们能够根据自己的时间表逐步管理向液体冷却的过渡。
图2.利用 HPE Cray XD2000 系统延长空气冷却的使用寿命 HPE Cray XD2000 系统
借助 HPE Cray 系列,HPE 和英特尔带来了来自世界上最强大的超级计算机的创新,使其可用于商业数据中心环境。[10] HPE Cray XD2000 系统是一个密集的多服务器平台,可在较小的数据中心空间内提供卓越的性能和工作负载灵活性,同时提供共享基础设施的效率。
每个 HPE Cray XD2000 2U 机箱支持多达四台采用最新第四代英特尔至强 CPU 的 HPE Cray XD220v 1U 服务器。可以在不影响同一机箱中其他服务器运行的情况下维护每台服务器,以实现最大的服务器可用性。HPE Cray XD4 在标准机架中提供的密度是传统机架式 2000U 服务器的 4 倍,并提供后通道可维护性访问。[2] 多达 11 个 HPE Cray XD20 机箱可安装在 2000U 或 42U HPE 标准机架中,每个数据机架可提供多达 48 台 80P 服务器和 2 个第四代英特尔至强可扩展处理器,具体取决于电源和冷却方面的考虑。
这些系统为需要高性能解决方案的客户提供了完整、可扩展的解决方案。它们具有灵活的电源和冷却选项,包括风冷和直接液体冷却 (DLC),在降低总体拥有成本的同时提供卓越的性能。
图3.密度优化的 HPE Cray XD2000 机箱,支持多达 4 台 HPE Cray XD220v 1U 服务器
图4.具有可选直接液体冷却 (DLC) 功能的 HPE 数据中心机架
创新的工程设计可实现烟囱上下空气冷却
得益于驻留在 HPE Cray XD1 机箱中的 220U HPE Cray XD2000v 服务器的设计;客户可以在风冷环境中受益于最新的高性能英特尔至强可扩展处理器。客户可以使用最新的处理器技术部署完全填充的 HPE Cray XD2000 机架,而无需担心液体冷却。
实现这一点的原因是图 220 中所示的采用英特尔技术的 HPE Cray XD5v 服务器的独特设计。HPE Cray XD220v 比专为 HPE Apollo 20 机箱设计的上一代 HPE ProLiant XD200n 宽 2000%。但是,这种更新的设计仍然适合行业标准机架。
图5.HPE Cray XD220v 支持最新英特尔至强处理器的高效风冷。
凭借更大的散热器和额外的冷却风扇,这款重新设计的服务器支持全系列第四代英特尔至强可扩展处理器,每个插槽从 4 个内核到 12 个内核,可实现高效的风冷,包括最强大的 56 瓦 350 核英特尔至强®铂金 56+ 和英特尔®至强 8480 Max 系列处理器。
重新设计的系统具有一个特殊的挡板,可优化气流,每个 HPE Cray XD16 机箱具有 40 个风扇(每个 2000 毫米),可在最苛刻的 HPC 环境中可靠地冷却密集的服务器配置。更好的是,这些服务器旨在支持未来英特尔至强处理器的空气冷却。这转化为卓越的投资保护和灵活性。组织可以立即部署具有空气冷却功能的 HPE Cray XD2000 系统,并在将来轻松添加液体冷却。
这一优势是采用英特尔技术的 HPE Cray XD220v 服务器所独有的。由具有类似 TDP 的竞争处理器技术提供支持的服务器需要液体冷却,这增加了服务器部署的成本和复杂性。
液冷配置的性能略好,因为风冷配置中的较高温度导致硅中的泄漏电流较高。这导致更高的功耗,在处理器的固定 TDP 预算内用于提升时钟频率的功率更少。[注13]
表 2.比较风冷和液冷 HPE Cray XD2000 系统的性能和功率要求
图 2 显示了表 7 中所有六个基准中空气冷却与液体冷却的平均影响。平均而言,液冷配置的性能提高了 1.8%,功耗降低了 14.6%。液冷式 HPE Cray XD2000 的电源效率提高了 19.2%,以每千瓦的吞吐量衡量。
图6.采用英特尔®至强® 2000+ 处理器的 HPE Cray XD8480 系统 — 六个标准基准测试中空气冷却与液体冷却对性能、功耗和电源效率的平均影响
图 7 中的结果表明,液体冷却可提供卓越的能效,而运行最新英特尔至强 8480+ 处理器的风冷服务器可提供出色的性能。风冷式 HPE Cray XD2000 系统是无法或尚未准备好过渡到液冷的客户的出色解决方案。
帮助最大限度地提高性能、灵活性和价值
随着高端CPU功率需求的提高,许多组织正在考虑液体冷却以增加密度并提高冷却效率。但是,这种转变可能代价高昂且具有破坏性,并非所有组织都准备好采取这一步骤。
幸运的是,采用第四代英特尔至强可扩展处理器的最新 HPE Cray XD2000 为客户提供了按照自己的节奏灵活应对这一过渡的能力。借助采用英特尔技术的 HPE Cray XD4 系统,客户可以:
通过延长风冷的可行性,避免或延迟昂贵的数据中心升级和改装 吞吐量是上一代服务器的两倍[14] 部署密集、节能的服务器,帮助最大限度地利用数据中心空间 保护软件和工具的现有投资 逐步采用节能的直接液体冷却,并按照自己的节奏 欲了解更多信息,请访问
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。