微软即将开源REEF大数据框架-大数据-中存储网

2013-08-15 00:00:00

来源
中存储

大数据

微软开发出一套名为REEF（即可保留评估执行框架的简称）的大数据框架，并有意在一个月之内将其推向开源。REEF在设计上以下一代Hadoop资源管理器YARN为运行基础，尤其适合完成机器学习类任务。微软公司技术研究员兼信息服务部门CTO Raghu Rama

微软开发出一套名为REEF（即可保留评估执行框架的简称）的大数据框架，并有意在一个月之内将其推向开源。REEF在设计上以下一代Hadoop资源管理器YARN为运行基础，尤其适合完成机器学习类任务。
　　微软公司技术研究员兼信息服务部门CTO Raghu Ramakrishnan在本周一上午于芝加哥举办的知识发掘与数据发现国际大会上，以主题演讲的形式介绍了REEF项目与微软的开源规划。
　　YARN是一款资源管理器，最初作为Apache Hadoop项目的组成部分开发而来，旨在帮助用户在由多台物理设备构成的同一套集群内运行并管理多种任务类型（例如批量MapReduce、与Storm及/或图形处理包共同实现流处理等）。这项新机制不仅能够缩减机构所需管理的系统数量，而且能在同一位置以同一批数据为基础执行不同类型的分析工作。在某些情况下，全部数据工作流甚至可以完全在同一套设备集群内进行处理。
　　不过根据Ramakrishnan的解释，某些工作类型（例如机器学习）对于YARN类框架并不适合，因为它们对于数据移动、任务监控以及前续结果集迭代（以避免多次重启）等功能存在特殊要求。针对REEF，Ramakrishnan表示这是一套运行在YARN之上的库；虽然他并未深入探讨其具体运作机制，但宣称REEF能在一定程度上解决上述问题。
　　但他曾明确解释称，REEF被分为两大主要部分：首先是作为容纳REEF服务的YARN容器——Evaluator；然后是使用户代码运行在Evaluator当中的Activity。他还为我们带来一段工作流演示，即在YARN当中启动Evaluator，并以Evaluator为容器实现Activity代码运行直到结束。值得一提的是，同一Evaluator还可以再次启动并维持其初始状态，这样其它Activity进程也可以针对初始数据实现运行。据推测，微软很可能是利用某种SQL查询或者其它机器学习算法来实现这样的效果。

　　从理论上讲，REEF是一种非常有趣的技术。它希望解决企业在尝试对数据进行进一步分析时所面对的遗留问题。我们期待微软正式发布REEF之后，再从实际使用中获取更多效果信息。尽管目前尚未实践证明，但REEF仍然值得关注——这是因为微软已经对Hadoop（YARN即为Hadoop的重要组成部分）及开源社区表现出高度关注。就在几年前，微软还在寻找Hadoop的替代方案及专有平台。如今，软件巨头已经开始在Hadoop技术社区中倾注心力，希望借开源之力助自己更上一层楼。

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

微软即将开源REEF大数据框架

深入Nutch index源代码解析(一)

深入Nutch index源代码解析二)

腾讯是如何利用游戏大数据的

数据仓库系统Mesa 谷歌的新大作值得期待

Google高级数据分析师加盟食品创业公司

新型 Linux Rootkit PUMAKIT 使用先进的隐身技术躲避检测

OpenAI就ChatGPT宕机致歉：部分服务恢复，Sora仍处于瘫痪状态

N-able 收购现有战略合作伙伴 Adlumin

美方指控“与中国有关黑客”入侵多家电信公司网络，外交部驳斥

IDC：英方软件第九次获中国专业灾备软件厂商第一

阿里云盘回应相册陌生照片“乱入”问题：已快速修复，用户影响面较小

Backblaze：如何扩展公司的云存储？

以色列初创企业Datafy在种子轮融资600万美元

Cloudflare宣布R2的主要更新，包括事件通知和GCS支持

IDrive Backup新功能：云对云备份Google数据

60国签署巴黎AI峰会声明，美英缺席

富士通横滨国立大学使用 Fugaku 超级计算机推进台风龙卷风预报

Jülich 购买 D-Wave 量子计算机加强量子研究

Trane 将液体冷却集成到 AI 和 HPC 的热管理中

D-Wave 宣布举办 Qubits 2025 量子计算用户大会

Trendfocus 磁带和归档存储服务 CQ3 '24 季度更新报告

适用于 IBM Spectrum Scale 的联想分布式存储解决方案

CES 2025：威刚/XPG Schowcasing 工业和游戏存储设备

AI推理将驱动AIDC需求提升数据中心行业有望复苏

美光采样 6550 ION PCIe Gen5 高达 61TB 的 E3 数据中心 SSD

中国信通院发布《智能化医疗装备产业蓝皮书（2024年）》

使用 Ardis DDP10EF 和 SupremeRAID SR-1000 for M&E 解锁更高水平的媒体性能

多地点运营的企业，分布式管理与集中式管理哪种更具有网络保护的优势？

数字政府一体化建设白皮书（2024年）

Orico公司联合西部数据推出面向创作者的混合存储产品

科技要闻

IDC 发布《FutureScape 2025 年全球制造业预测 – 亚太地区（不包括日本）影响》报告

60国签署巴黎AI峰会声明，美英缺席

一月手机激活量统计数据出炉：华为领跑，小米崛起，苹果失速！

Nasuni 2024年财报创纪录

慧荣Silicon Motion公布24 财年第四季度财务业绩

微软即将开源REEF大数据框架

猜你喜欢

科技要闻