深度学习硬件架构简述

2016-11-21 23:38:14

来源
机器之心

在开发用于深度学习应用的高效硬件平台这一领域，竞争十分激烈。本文将介绍具体的硬件要求，并讨论未来对深度学习硬件的展望。

深度学习具有极高的计算需求，要对深度学习应用进行开发并商业化，就需要找到合适的硬件配置。目前，在开发用于深度学习应用的高效硬件平台这一领域，竞争十分激烈。本文将介绍具体的硬件要求，并讨论未来对深度学习硬件的展望。

深度学习在这十年，甚至是未来几十年内都有可能是最热门的话题。虽然深度学习已是广为人知了，但它并不仅仅包含数学、建模、学习和优化。算法必须在优化后的硬件上运行，因为学习成千上万的数据可能需要长达几周的时间。因此，深度学习网络亟需更快、更高效的硬件。

众所周知，并非所有进程都能在CPU上高效运行。游戏和视频处理需要专门的硬件——图形处理器（GPU），信号处理则需要像数字信号处理器（DSP）等其它独立的架构。人们一直在设计用于学习（learning）的专用硬件，例如，2016年3月与李世石对阵的AlphaGo计算机使用了由1920个CPU和280个GPU组成的分布式计算模块。而随着英伟达发布新一代的Pascal GPU，人们也开始对深度学习的软件和硬件有了同等的关注。接下来，让我们重点来看深度学习的硬件架构。

对深度学习硬件平台的要求

要想明白我们需要怎样的硬件，必须了解深度学习的工作原理。首先在表层上，我们有一个巨大的数据集，并选定了一种深度学习模型。每个模型都有一些内部参数需要调整，以便学习数据。而这种参数调整实际上可以归结为优化问题，在调整这些参数时，就相当于在优化特定的约束条件。

图片：英伟达

百度的硅谷人工智能实验室（SVAIL）已经为深度学习硬件提出了DeepBench基准，这一基准着重衡量的是基本计算的硬件性能，而不是学习模型的表现。这种方法旨在找到使计算变慢或低效的瓶颈。因此，重点在于设计一个对于深层神经网络训练的基本操作执行效果最佳的架构。那么基本操作有哪些呢？现在的深度学习算法主要包括卷积神经网络（CNN）和循环神经网络（RNN）。基于这些算法，DeepBench提出以下四种基本运算：

矩阵相乘（Matrix Multiplication）——几乎所有的深度学习模型都包含这一运算，它的计算十分密集。

卷积（Convolution）——这是另一个常用的运算，占用了模型中大部分的每秒浮点运算（浮点／秒）。

循环层（Recurrent Layers ）——模型中的反馈层，并且基本上是前两个运算的组合。

All Reduce——这是一个在优化前对学习到的参数进行传递或解析的运算序列。在跨硬件分布的深度学习网络上执行同步优化时（如AlphaGo的例子），这一操作尤其有效。

除此之外，深度学习的硬件加速器需要具备数据级别和流程化的并行性、多线程和高内存带宽等特性。另外，由于数据的训练时间很长，所以硬件架构必须低功耗。因此，效能功耗比（Performance per Watt）是硬件架构的评估标准之一。

当前趋势与未来走向

英伟达的GPU在深度学习硬件市场上一直处于领先地位。图片：英伟达

英伟达以其大规模的并行GPU和专用GPU编程框架CUDA主导着当前的深度学习市场。但是越来越多的公司开发出了用于深度学习的加速硬件，比如谷歌的张量处理单元（TPU/Tensor Processing Unit）、英特尔的Xeon Phi Knight's Landing，以及高通的神经网络处理器（NNU/Neural Network Processor）。像Teradeep这样的公司现在开始使用FPGA（现场可编程门阵列），因为它们的能效比GPU的高出10倍。 FPGA更灵活、可扩展、并且效能功耗比更高。但是对FPGA编程需要特定的硬件知识，因此近来也有对软件层面的FPGA编程模型的开发。

此外，一直以来广为人所接受的理念是，适合所有模型的统一架构是不存在的，因为不同的模型需要不同的硬件处理架构。而研究人员正在努力，希望FPGA的广泛使用能够推翻这一说法。

大多数深度学习软件框架（如TensorFlow、Torch、Theano、CNTK）是开源的，而Facebook最近也开放其 Big Sur 深度学习硬件平台，因此在不久的将来，我们应该会看到更多深度学习的开源硬件架构。

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

猜你喜欢

无相关信息

深度学习硬件架构简述

N2W 宣布为 Kubernetes 提供下一级别自动备份与恢复功能

Cloudflare 3周2宕，宕机事件暴露了人工智能和支付依赖的风险

嵌入式安全：嵌入式系统制造商如何通过安全启动密钥管理加强保护

X平台发布全新“Chat”功能，新增端到端加密与视频通话

PostgreSQL 数据库开源接口 pgAdmin4 中发现严重的远程代码执行（RCE）漏洞

Wasabi 推出隐蔽复制功能，提升云存储安全，防勒索软件

HostColor 在迈阿密数据中心推出新的 AI 兼容云和裸机服务器

Inveniam 收购 Storj 为去中心化数据基础设施的未来提供动力

Smash 专为创意社区设计的新服务取代传统文件传输

ASI Solutions 推出 InfiniStor 云存储平台

我国科学家在量子体系中实现突破商业化落地迎关键拐点

江门中微子实验精度提高1.5~1.8倍

2030 年比特币会被量子计算机攻破吗？

NODKA IPC-615H5-Q670利用英特尔的处理和工具集提高性能

LDRA 宣布其 LDRA 工具套件现在支持对多核架构上的时序耦合干扰的增强分析

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案

美光战略调整，彻底退出消费级内存市场，2026年起停售DDR内存和SSD

电源和冷却限制是未来三到五年人工智能数据中心增长的重大障碍

慧荣科技宣布推出SM8388，业界领先的高能效PCIe Gen5企业SSD主控芯片

Supercomputing 2025：西部数据将展示创新的下一代AI存储

天硕工业级宽温存储方案：智能SLC模式助力关键领域国产化替代

为AI时代打造的 Pure Storage平台，让数据更智能、更快、更安全、更有趣

和硕通过先进的 OCP 解决方案为数据中心的未来提供动力

江苏:县级以下禁止开发政务服务APP

瑞金医院联合华为开源RuiPath病理模型，加速行业智能化落地

科技要闻

Microchip推出数字功率监测器，实现便携式设备测量功耗减半

全球半导体设备市场统计报告：出货量330亿美元，中国占额最大

CISP认证全面介绍，CISP报名条件及培训课程介绍

芯展速“臻·6”发布会圆满礼成国内首发Gen6路标加速「多模态」真正落地

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案