浪潮开源发布全球首个完整方案的FPGA高效AI计算框架TF2

2019-09-06 16:20:36

来源
中存储

全球首个包含从模型裁剪、压缩、量化到通用模型实现等优化算法的完整方案的FPGA上AI开源框架。

8月28日在北京举行的2019人工智能计算大会(AICC2019)上,浪潮宣布开源发布基于FPGA的高效AI计算框架TF2,这一框架的推理引擎采用全球首创的DNN移位计算技术,结合多项最新优化技术,可实现通用深度学习模型基于FPGA芯片的高性能低延迟部署,这也是全球首个包含从模型裁剪、压缩、量化到通用模型实现等优化算法的完整方案的FPGA上AI开源框架,项目开源网址为https://github.com/TF2-Engine/TF2。据悉目前已有快手、上海大学、华大智造、远鉴科技、睿视智觉、华展汇元等多家公司或研究机构加入TF2开源社区,社区将共同推动基于可定制芯片FPGA的AI技术的开源开放合作发展,降低高性能AI计算技术门槛,帮助AI用户和开发者缩短开发周期。

当前,可定制、低延迟、高性能功耗比的FPGA技术成为很多AI用户部署推理应用的选择,但FPGA开发难度大、周期长,难以适应快速迭代的深度学习算法应用需求。TF2可快速实现基于主流AI训练软件和深度神经网络模型DNN的FPGA线上推理,帮助用户最大限度的发挥FPGA计算能力,实现FPGA的高性能、低延迟部署。同时TF2计算架构也可以快速实现AI芯片级设计和性能验证。

TF2计算加速流程

TF2由两部分组成。第一部分是模型优化转换工具TF2 Transform Kit,可将经过PyTorch、TensorFlow、Caffe等框架训练得到的网络模型数据进行压缩、裁剪、8位量化等操作,减少模型计算量。如对于ResNet50模型,通过压缩32位浮点模型为4位整数模型、通道裁剪,可将模型文件裁剪掉93.75%,几乎无精度损失并保持原始模型的基本计算架构。第二部分是FPGA智能运行引擎TF2 Runtime Engine,可将已优化转换的模型文件自动转化为FPGA目标运行文件,通过创新的DNN移位计算技术大幅提升FPGA做推理计算的性能,并有效降低其实际运行功耗。TF2已完成在ResNet50、FaceNet、GoogLeNet、SqueezeNet等主流DNN模型上的测试验证。在浪潮F10A FPGA卡上采用FaceNet模型对TF2进行的测试(BatchSize=1)表明,运行TF2后单张图片的计算耗时为0.612ms,提速12.8倍。

同时,浪潮开源的项目中还包括TF2的软件定义的可重构芯片设计架构。此架构完整支持当前CNN网络模型的开发,并可快速移植使其支持Transformer、LSTM等网络模型开发。以此架构为基础,可进一步实现ASIC芯片开发原型设计。

开源的FPGA芯片级设计

根据浪潮公布的开源社区建设计划,浪潮将持续投入对TF2进行更新,将开发开源自动模型解析、结构性裁剪、任意比特量化、基于AutoML的裁剪和量化等新功能,支持稀疏计算、Transformer网络模型、NLP通用模型等。此外,社区将定期举行开发者会议和线上公开课,分享最新技术进展和经验成果,并通过高校教育计划培养开发者,同时开展用户移植方案制定和开发技术支持。

浪潮集团AI&HPC总经理刘军表示:“AI应用部署涵盖云端、边端、移动端,需求非常多样,TF2可极大提升跨端应用部署的效率,快速适应不同场景下模型推理需求。欢迎广大AI用户和开发者加入TF2开源社区,共同加速AI应用部署,推动更多AI应用落地。”

浪潮是人工智能计算的领导品牌,AI服务器中国市场份额保持50%以上,并与人工智能领先科技公司保持在系统与应用方面的深入紧密合作,帮助AI客户在语音、语义、图像、视频、搜索、网络等方面取得数量级的应用性能提升。浪潮与合作伙伴共建元脑生态,共享AI计算、资源与算法三大核心平台能力,助力行业用户开发并部署属于自己的“行业大脑”,加速推进产业AI化落地。

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

浪潮开源发布全球首个完整方案的FPGA高效AI计算框架TF2

阿里20年之AI篇：“云”上的“阿里巴巴智能”

谷歌获婴儿AI监控专利：可追踪眼球有异常立即提醒

百度联合浪潮发布全栈式AI一体化平台共同加速产业AI化

【AICC2019大会】浪潮与百度共建AIStation与飞桨联合方案推进产业AI化

N2W 宣布为 Kubernetes 提供下一级别自动备份与恢复功能

Cloudflare 3周2宕，宕机事件暴露了人工智能和支付依赖的风险

嵌入式安全：嵌入式系统制造商如何通过安全启动密钥管理加强保护

X平台发布全新“Chat”功能，新增端到端加密与视频通话

PostgreSQL 数据库开源接口 pgAdmin4 中发现严重的远程代码执行（RCE）漏洞

Wasabi 推出隐蔽复制功能，提升云存储安全，防勒索软件

HostColor 在迈阿密数据中心推出新的 AI 兼容云和裸机服务器

Inveniam 收购 Storj 为去中心化数据基础设施的未来提供动力

Smash 专为创意社区设计的新服务取代传统文件传输

ASI Solutions 推出 InfiniStor 云存储平台

我国科学家在量子体系中实现突破商业化落地迎关键拐点

江门中微子实验精度提高1.5~1.8倍

2030 年比特币会被量子计算机攻破吗？

NODKA IPC-615H5-Q670利用英特尔的处理和工具集提高性能

LDRA 宣布其 LDRA 工具套件现在支持对多核架构上的时序耦合干扰的增强分析

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案

美光战略调整，彻底退出消费级内存市场，2026年起停售DDR内存和SSD

电源和冷却限制是未来三到五年人工智能数据中心增长的重大障碍

慧荣科技宣布推出SM8388，业界领先的高能效PCIe Gen5企业SSD主控芯片

Supercomputing 2025：西部数据将展示创新的下一代AI存储

天硕工业级宽温存储方案：智能SLC模式助力关键领域国产化替代

为AI时代打造的 Pure Storage平台，让数据更智能、更快、更安全、更有趣

和硕通过先进的 OCP 解决方案为数据中心的未来提供动力

江苏:县级以下禁止开发政务服务APP

瑞金医院联合华为开源RuiPath病理模型，加速行业智能化落地

科技要闻

Microchip推出数字功率监测器，实现便携式设备测量功耗减半

全球半导体设备市场统计报告：出货量330亿美元，中国占额最大

CISP认证全面介绍，CISP报名条件及培训课程介绍

芯展速“臻·6”发布会圆满礼成国内首发Gen6路标加速「多模态」真正落地

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案

浪潮开源发布全球首个完整方案的FPGA高效AI计算框架TF2

猜你喜欢

科技要闻