英伟达公司表示,它在不到三周的时间内就成功建造了世界第七快的超级计算机赛琳娜Selene。
Selene基于DGX A100系统,Argonne国家实验室也使用该系统 研究停止冠状病毒的方法。Selene超级计算机已被部署来解决诸如蛋白质对接和量子化学等概念方面的问题,这些问题对于加深对冠状病毒的了解以及可能治愈COVID-19疾病的关键。
英伟达表示,Selene基于其最先进的DGX SuperPOD架构,这是一种针对人工智能工作负载而开发的新系统,于今年早些时候发布。DGX SuperPOD集成了Nvidia最新的八个A100图形处理单元,这些单元专门用于数据分析,科学计算和云图形工作负载。
在大流行期间如此快速地构建Selene超级计算机绝非易事,但Nvidia在博客中表示,它能够借鉴其基于旧DGX-2系统将超级计算机拼接在一起的早期经验。这些经验教给Nvidia一些有关网络,存储,电源和散热的艰巨教训,以及将这些必需组件拼接在一起以创建专用于科学研究的超级计算机的最有效方法。
例如,英伟达于2019年6月建造了Circe(目前是世界上最快的23台超级计算机)时,其工程师完全重新设计了该机器的网络,以简化整个系统的组装。Circe的网络基于20个节点的可伸缩模块,这些模块通过相对简单的“薄型开关”连接,这些开关可以放下饼形刀,在添加另一个之前先打开并进行测试。
Nvidia解释说,该设计使工程师可以指定可在工厂与Velcro捆绑在一起的电缆的设定长度。结果,可以对机架进行标记和映射,从而大大简化了用数十个系统填充机架的过程。
英伟达表示,其在Circe方面的经验意味着它可以为超级计算机设计出一种平衡的设计,该超级计算机可以处理许多不同种类的高性能计算工作负载。其设计的灵活性还意味着研究人员拥有更大的自由来探索AI和高性能计算的新方向,这在Selene的构建中被证明是有用的。
通常,数十名工程师组成的团队需要几个月的时间来组装,测试然后调试超级计算机类系统。Nvidia的工程师还必须保持社交距离以确保这些工人的安全,这一事实使挑战变得更加复杂。
Nvidia的策略是使用两人团队的骨干人员将其系统拆箱并放在一起,这些团队必须全天候进行单独的轮班,以免在任何时候都与其他人混在一起。通过遵循Nvidia的预先设计,这些团队每天都架起60台DGX SuperPOD系统。几乎可以从管理员那里获得工程团队的帮助,他们可以远程验证电缆,并在部署每个20节点模块后立即对其进行测试。
该设计方法是如此成功且如此之快,以至于英伟达表示,另一位客户佛罗里达大学希望,一旦必要的系统能够在10天之内为现有的HiPerGator超级计算机提供140个节点的扩展架并启动电源和设备都已运出。
现在,Selene已启动并正在运行,可以通过Slack渠道与操作员进行对话,以报告任何问题,例如硬件故障或电缆松动。这些操作员还得益于一个名为“ Trip”的网真机器人,该机器人可以上下SuperPOD系统的通道上下移动,以帮助远程监视事物。
Selene于6月在全球超级计算机TOP500排行榜中排名第7位,同月在Green500全球最省电系统的列表中排名第二。当年7月,它创下新的记录在最新MLPerf基准AI培训绩效的所有八大系统测试。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。