2015-10-06 01:02:33
来 源
中存储
大数据
微软Azure Data Lake服务的技术基础正是微软在其“Cosmos”大数据存储和分析服务内部使用的部分技术。

尽管早在今年4月的Build大会上,微软就公布了Azure Data Lake服务,但是直到今天微软才明确指出将如何增强即将推出的企业级云数据存储库。

9月28日,微软表示:即将推出的Azure Data Lake服务的技术基础正是微软在其“Cosmos”大数据存储和分析服务内部使用的部分技术。微软Build2015开发者大会首日演讲重点回顾

我们从4月就已经知道Azure Data Lake——微软所谓的“用于在云中针对大数据分析工作负载的超大规模存储库”——将会兼容Hortonworks Hadoop Distributes File System(HDFS)。当时,微软建议有兴趣者可以注册即将推出的Azure Data Lake存储库预览版。

今年年初,我从我的联系人那里听说,微软正在私下测试Azure Data Lake的主要组件。有一个代号为“Kona”的分析引擎;一个代号为“Cabo”的存储引擎;以及一种SQL友好的新语言,名为SQL-IP。今天,微软推出了这些相同的组件(采用全新的官方命名):Azure Data Lake分析;Azure Data Lake存储库,以及U-SQL。

微软表示,分析引擎和存储库将会在今年年底以公开预览的方式提供。

Azure Data Lake将支持微软针对Windows和Linux的Hadoop-on-Azure服务——HDInsight。(Linux版本的HDInsight,可运行在Ubuntu上,从今天开始提供;Windows版本从2013年就已经开始提供了。)

微软Azure Data Lake的首要目标是允许客户“在任何地方从所有数据中最大化地提取洞察力。”微软数据平台企业副总裁T.K. "Ranga" Rengarajan这样表示。

虽然我的联系人说了有一段时间了,微软计划将自己的Cosmos服务转变为某种微软外部的用户可以使用的付费服务,但是微软并没有简单地利用Cosmos基础设施并在Azure上商业化提供Cosmos。

Cosmos是微软的大规模并行存储和计算服务,可处理来自Azure、Bing、AdCenter、MSN、Skype以及Windows Live的数据。根据微软最近的一则招聘启事,在微软内部有大约5000名开发者和“数千名”用户在使用Cosmos。

Cosmos旨在利用微软的Dryad分布式处理技术。微软内部利用Cosmos处理遥测数据;对大型数据集执行分析和报告,例如那些通过Bing和Office 365生成的数据集;对多种数据执行后端处理。很多大量用于这些不同用途的数据可被共享。对这些数据的查询可以运行在任何地方,从一台机器到并行的40000台机器。

相反,微软已经为Azure客户开发了一个变体版的Cosmos,并不适用Dryad。这部分分析是构建在Apache YARN上的,存储库则是兼容HDFS的。U-SQL,微软将其描述为“一种新的查询语言,将SQL的易用性与C#的强大结合起来,将来自微软内部使用和开发的SCOPE语言的线索用于执行并行查询。”

“Azure Data Lake要比Cosmos更有野心。”Rengarajan这样表示。“这也是来自Apache Spark、数据仓库等等的灵感。我们多年来一直在思考这个问题。”

虽然微软对于Cosmos的内部使用让微软更深入地了解并行计算,“但Cosmos的开发是一种不同的方式,在不同的时代,”Rengarajan这样表示。如今,用户正在寻找解决方案,找出如何在几个小时内在数千台机器上排除故障,或者如何跨数千台设备执行查询,但是这仍然看起来非常熟悉。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。