谷歌新技术让数据中心更智能

2014-07-22 13:37:43

来源
中存储

Google数据中心副总裁Joe Kava告诉我们采用神经网络可以“预见”数据中心的“未来”，从而为数据中心的工程师们提供最优的方案，Google具体是怎样做的？作者Richer Miller为我们带来了精彩的分析。

数据中心的管理日益复杂，时刻都有庞大而复杂的数据信息需要处理，各种各样的因素随时有可能导致突发性事故的发生，而造成的损失也是惊人的。这些复杂的因素很难通过直观的方式分析和理解，机器学习的介入有一定的必然性。Google数据中心副总裁Joe Kava告诉我们采用神经网络可以“预见”数据中心的“未来”，从而为数据中心的工程师们提供最优的方案，Google具体是怎样做的？作者Richer Miller为我们带来了精彩的分析。

Google将机器学习和人工智能应用到强大的数据中心，致力于让数据中心更高效。近日，在Data Centers Europe 2014的一份简报中，Google的数据中心副总裁Joe Kava告诉我们Google已经采用神经网络来分析数据，该神经网络系统可以收集服务器群的相关信息，并提供改进方案。

实际上，谷歌已经制造出了一台超级计算机，这台计算机比谷歌的工程师们更了解数据中心。目前，数据中心仍然由人工控制，但Joe Kava告诉我们，神经网络的使用将使Google服务器群的效率达到一个全新的高度，这甚至让制造它的工程师们望尘莫及。

谷歌已经拥有了多个高效的数据中心，使用人工智能后，Google将能够预见“未来”，通过模拟出数以千计的可能情况，了解到未来数据中心的运行状况。

在早期，神经网络预测谷歌电力使用效率的准确率已经达到99.6%.这种方法带来的效率提升看起来很小，但当其应用到具有数千个服务器的数据中心时，就可以节约下大量的成本。

为什么要采用机器学习和神经网络？主要的原因是数据中心日益复杂，这对谷歌来说是个挑战，Google利用传感器从数以亿计的数据点收集有关其基础设施及能源使用状况的信息。

谷歌的神经网络是由Jim Gao创建的，由于他对大型数据集有很强的分析能力，他的同事给他取了个绰号——“天才小子（Boy Genius）”。Gao应用计算流体动力学来做冷却分析，利用监测数据创建了一个服务器房间里的气流3D模型。

Gao认为创建一个模型来跟踪一组广泛的变量是有可能实现的，这些变量包括IT负载、天气条件，以及冷却塔、水泵和换热器（这些设备用来给谷歌服务器降温）的运作情况。

Kava在一篇博客中写道：“计算机擅长的是在数据中发现隐含的信息，所以Jim采用了我们日常操作过程中收集的数据，并将这些数据放到一个模型中运行，目的是理解普通人（Jim的团队）可能注意不到的复杂互动的意义，如今Jim的模型在预测PUE（Power Usage Effectiveness，电源使用效率）时的准确率已经达到了99.6%.这意味着他可以使用该模型提出新方案，从我们的操作中获得更高的效率。”

Gao倡导发展和使用机器学习，并将其称之为“20 percent project”，谷歌鼓励员工在特定工作职责之外花大量时间进行创新。Gao原先并不是人工智能方面的专家，为了了解更多有关机器学习的知识，他学习了斯坦福大学Andrew Ng教授的课程。

神经网络模仿人类大脑的工作原理，让计算机在没有显式编程的情况下，自动适应和“学习”。谷歌的搜索引擎往往被看作是这类机器学习的典型，这也是该公司主要研究的一个重点。

Kava解释说：“该模型实际上就是一系列的微分方程，你需要对数学有所了解，该模型能够了解这些变量之间的交互。”

Gao的第一项任务是研究数字，标识出影响Google数据中心能源效率的重要因素，以PUE为标准。他将这些因素缩小到19个变量，然后设计了神经网络，即一个可以分析大型数据集以识别模式的机器学习系统。

Gao在他的倡议白皮书中写道：“大量可能的设备组合以及它们的设定值使最优效率难以确定，在数据中心，通过硬件（机械和电气设备）和软件（控制策略和设定值）有许多可能的组合。受到时间既定、IT负载频繁波动和天气状况的限制下，测试每一种可能组合以实现效率最大化是不可行的，更不用说还要维持一个稳定的DC环境。

说到硬件，实际上机器学习不需要多么强的计算能力，Kava告诉我们，该机器学习系统在单个服务器上就可以运行，甚至可以运行在高端台式机上。

该系统已经被应用到Google数据中心，该机器学习工具能够提供建议，对PUE进行改进；或者在能源设施升级过程中，对数据中心负载迁移的改进；也可以对冷却系统中多个部分的水温调整。

Gao还写道：“谷歌（数据中心）的实际测试表明，机器学习是使用现有传感器为DC能源效率建模的一种有效方法，可以显著地节约成本。”

Kava告诉我们：“该工具可以帮助谷歌对未来设计进行模拟和完善，但我们不需要担心机器夺走人类的控制权——近期，Google的数据中心还不太可能拥有自我意识。虽然Google热衷于实现自动化，最近又收购了多家机器人公司，但新的机器学习工具目前还不可能控制一个数据中心。”

Kava说：“数据中心仍然需要人类对许多事务作出良好的判断，我仍然希望我们的工程师对机器提供的建议进行审查。”

从Google构建服务器群的方式中，我们或许可以看到神经网络带来的好处。Kava说：“我可以想象出在数据中心的设计周期中使用神经网络的情形，我们可以将它作为一个具有前瞻性的工具使用，用来测试设计的变化和创新，将来我们会找到更多的用例。”

Google在Gao的白皮书中分享了机器学习的方法，期待其他超大规模数据中心的运营商也能开发类似的工具。

Kava说：“这不是只有Google或者Jim Gao才能做到的事情，我很乐意看到这类分析工具被更加广泛的使用。我认为这个行业可以从这类工具中受益，它是一个可以提供效率的好工具。”

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

谷歌新技术让数据中心更智能

华云数据“千万美金寻找中国好IDC”邀请函

一体式数据中心系统是流行趋势？

浅述数据中心网络设备里的那些可记忆部件

数据中心未来供电技术发展浅析 380V直流无前途

机房夏季大优化！十招轻松管理数据中心

N2W 宣布为 Kubernetes 提供下一级别自动备份与恢复功能

Cloudflare 3周2宕，宕机事件暴露了人工智能和支付依赖的风险

嵌入式安全：嵌入式系统制造商如何通过安全启动密钥管理加强保护

X平台发布全新“Chat”功能，新增端到端加密与视频通话

PostgreSQL 数据库开源接口 pgAdmin4 中发现严重的远程代码执行（RCE）漏洞

Wasabi 推出隐蔽复制功能，提升云存储安全，防勒索软件

HostColor 在迈阿密数据中心推出新的 AI 兼容云和裸机服务器

Inveniam 收购 Storj 为去中心化数据基础设施的未来提供动力

Smash 专为创意社区设计的新服务取代传统文件传输

ASI Solutions 推出 InfiniStor 云存储平台

我国科学家在量子体系中实现突破商业化落地迎关键拐点

江门中微子实验精度提高1.5~1.8倍

2030 年比特币会被量子计算机攻破吗？

NODKA IPC-615H5-Q670利用英特尔的处理和工具集提高性能

LDRA 宣布其 LDRA 工具套件现在支持对多核架构上的时序耦合干扰的增强分析

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案

美光战略调整，彻底退出消费级内存市场，2026年起停售DDR内存和SSD

电源和冷却限制是未来三到五年人工智能数据中心增长的重大障碍

慧荣科技宣布推出SM8388，业界领先的高能效PCIe Gen5企业SSD主控芯片

Supercomputing 2025：西部数据将展示创新的下一代AI存储

天硕工业级宽温存储方案：智能SLC模式助力关键领域国产化替代

为AI时代打造的 Pure Storage平台，让数据更智能、更快、更安全、更有趣

和硕通过先进的 OCP 解决方案为数据中心的未来提供动力

江苏:县级以下禁止开发政务服务APP

瑞金医院联合华为开源RuiPath病理模型，加速行业智能化落地

科技要闻

Microchip推出数字功率监测器，实现便携式设备测量功耗减半

全球半导体设备市场统计报告：出货量330亿美元，中国占额最大

CISP认证全面介绍，CISP报名条件及培训课程介绍

芯展速“臻·6”发布会圆满礼成国内首发Gen6路标加速「多模态」真正落地

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案

谷歌新技术 让数据中心更智能

猜你喜欢

科技要闻

谷歌新技术让数据中心更智能