虽然开源Apache Hadoop项目本身已经包含各类核心模块——例如Hadoop Common、Hadoop分布式文件系统(简称HDFS)、Hadoop YARN以及Hadoop MapReduce——不过由于缺少来自商业供应商的技术支持以及打包解决方案,它并不能直接在市场上作为客户的可选产品。当下各大顶尖商业发行版都与Apache Hadoop相兼容,那么它们彼此之间如何保持独立性?下面我们将跟随着Forrester的视角,一同探讨九大商业Hadoop发行版如何走出自己的独特道路。
Amazon Web Services Elastic MapReduce夺得最大市场份额
在大家说起Hadoop时,Amazon也许并不是第一家出现在各位脑海中的方案供应商,不过AWS的Elastic MapReduce(简称EMR)则确实是最早投放市场的商业Hadoop产品之一、同时也在全球市场份额方面占据领先地位,Forrester首席分析师Mike Gualtieri表示。EMR是一套运作在云环境下的Hadoop,它利用Amazon EC2作为计算资源、Amazon S3作为存储资源,同时也容纳其它多项服务加以配合。
“AWS的解决方案路线图当中包括将Amazon EMR与Amazon Kinesis相集成以实现流程处理;进一步加强其与Amazon Redshift数据仓库以及其它数据源的集成程度;以策略为指导自动调整集群规模;在Hadoop基础上支持额外的NoSQL数据库;与更多来自第三方供应商的商务智能方案相对接,”Gualtieri写道。
Cloudera以企业客户需求为基础专注于Hadoop创新
AWS也许在市场份额方面遥遥领先,但专营企业Cloudera却也紧随其后;目前这家公司的客户数量已经超过200家,其中一部分的节点部署数量超过一千个、数据总量更是达到PB级别。
“企业客户希望拥有一套Hadoop管理与监控工具,为此Cloudera创建了Cloudera Manager,”Gualtieri写道。“企业客户希望获得一套速度更快的Hadoop SQL引擎,为此Cloudera利用大规模并行处理(简称MPP)架构创建了Impala——企业级数据仓库使用的也是这套架构。Cloudera的创新思路在于一方面继续秉承Hadoop项目核心,同时又通过快速创新与积极迎合客户需求将自身方案与其它供应商区别开来。”Cloudera的盈利模式主要源自软件订购,不过他们也提供技术支持服务。
Hortonworks推动开源Hadoop创新
纵观各大参与厂商,专营Hadoop业务的Hortonworks凭借自身Hortonworks数据平台(简称HDP)而与Apache Hadoop开源最为贴合,不过它同时也在积极寻求与其它工程技术合作伙伴的深入协作,其中包括微软、Teradata、SAP以及红帽等等。
“Hortonworks的策略在于通过开源社区推动创新活动,并与合作伙伴建立生态系统以加快Hadoop在企业客户当中的普及程度,”Gualtieri写道。“如果开源社区在某些方面的发展速度不够理想,Hortonworks就会以此为基础建立新项目并利用自身资源帮助其获得强劲的前进势头。”
在这方面,旨在提供Hadoop集群管理控制台的Apache Ambari项目就是一大典型范例。
IBM InfoSphere BigInsights,蓝色巨人支持下的企业拓展项目
IBM并不像一部分竞争对手那样拥有傲人的Hadoop社区合作深度,不过他们在分布式计算与数据管理领域的卓越成就帮助其拿出了一套相当全面的Hadoop解决方案。IBM目前已经完成了一百多项Hadoop部署工作,其中一部分所打理的数据规模更是达到PB级别。
“除此之外,IBM也拥有不少先进分析工具、全球市场份额以及服务实施方案,这使其得以通过一套完整的综合性大数据解决方案吸引众多企业客户,”Gualtieri写道。“IBM的路线图包括不断将BigInsights Hadoop解决方案与相关IBM资产相集成,例如SPSS高级分析、高性能计算工作负载管理、商务智能工具以及数据管理与建模工具等。”
MapR Technologies为NFS及其它创新成果提供支持
MapR Technologies在本次榜单的专营企业中位列第三,市场份额排名居于Cloudera与Hortonworks之后。早在刚刚起步的阶段,MapR就没有像其它厂商那样保守地对Hadoop进行概念验证、而是在此期间专注于实现各项企业级功能。
“MapR Technologies为其Hadoop发行版带来众多独一无二的创新成果,其中包括支持网络文件系统(简称NFS)、在集群中运行二进制代码、针对HBase实现性能强化以及高可用性与灾难恢复功能等等,”Gualitieri写道。Gualtieri同时指出,目前MapR的竞争对手已经开始积极创建与之相似的企业级功能,因此MapR必须要在市场推广方面有所动作并建立起属于自己的合作关系与发布渠道。
Pivotal Software充分发挥其Greenplum引擎潜能
作为站在EMC与VMware巨人肩膀上的新兴企业,Pivotal由前任VMware公司CEO Paul Maritz负责掌舵,同时也拥有EMC强大的技术咨询与数据科学团队为其提供支持。除了源自EMC的列式数据库Greenplum Database技术,Pivotal的Hadoop发行版还凭借名为HAWQ的MPP Hadoop SQL引擎实现了类似于MPP的SQL性能表现。
“Pivotal是第一家提供全功能企业级Hadoop设备的企业数据仓库供应商;他们也是第一家将自身Hadoop、企业数据仓库与数据管理层整合在同一台机架当中并作为设备家族推出的厂商,”Gualtieri写道。“Pivotal的路线图将使其Hadoop解决方案在竞争优势方面一马当先;其创新重点集中在改进HAWQ SQL引擎并将其与其它Pivotal产品进一步结合方面。”
Teradata利用丰富的专业知识打造Hadoop设备
Teradata是一家非常专业的企业数据仓库设备供应商,该公司在此基础上与Hortonworks建立起坚实的技术合作关系、将Hadoop以设备形式投放市场。
“Teradata的Hadoop发行版当中包括了与Teradata管理工具与SQL-H的集成机制、利用联合SQL引擎帮助客户从其数据仓库与Hadoop当中查询数据,”Gualtieri写道。“方案还利用Aster对Hadoop进行分析。”
Teradata的Hadoop设备目前只拥有不到一百家客户,不过Gualtieri指出其雄厚的资金实力加之丰富的技术与管理资源足以创建出一套独特的高性能设备,在这方面其它供应商很难与之进行正面对抗。
英特尔为Hadoop带来以硬件为基础的性能与安全性增强方案
在Hadoop发行版领域,英特尔的参与时间相对较晚,但这并不妨碍其利用其至强芯片的强大性能成为此间的一位有力竞争者。
“英特尔是第一家以硬件为基础向Hadoop交付性能与安全性强化机制的供应商,”Gualtieri写道。“英特尔未来几年的路线图将进一步与Hadoop解决方案市场上的其它参与者建立紧密的合作关系。除此之外,英特尔还将继续专注于利用硬件强化性能与安全性表现、本地任务优化、Lustre与图形分析,这一切都将推动其发行版在赢得广泛关注与赞赏。”
微软Windows Azure HDInsight,在云与Windows之力下茁壮成长
作为Hortonworks工程技术合作项目中的组成部分,微软Windows Azure HDInsight Service的设计思路紧紧围绕着Windows Azure云而展开。HDInsight and Hadoop for Windows(属于Hortonworks数据平台的一个分支版本)也是目前惟一一套运行在Windows环境下的Hadoop发行版。
“微软还提供Polybase以帮助SQL Server客户对保存在Hadoop当中的数据进行查询,”Gualtieri写道。“微软也在其它开源社区Hadoop项目当中作出了积极贡献,其中就包括下一代Hive。微软通过一系列Hadoop堆栈拓展举措为其客户在数据库、数据仓库、云、OLAP、商务智能、电子表格(PowerPivot)、雷德以及开发工具方面带来显著的改进效果。”
Ubuntu 12.04单机版环境中搭建hadoop详细教程,在Ubuntu下创建hadoop用户组和用,创建hadoop用户。
在mac os上安装hadoop的文章不多,本文安装环境的操作系统是 MAC OS X 10.7 Lion,共分7步,注意第三个配置在OS X上最好进行配置,否则会报错“Unable to load realm info from SCDynamicStore”。
Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。Nutch会将封装好的数据采用基于http的POST的方法发送一个请求数据包给solr的服务器,solr.commit();这个方法在前面一篇文章中解释有些偏差,solr的整个事务都是在solr服务器端的,这跟以前的的事务有所
、默认项目名称为MapReduceTools,然后在项目MapReduceTools中新建lib目录,先将hadoop下的hadoop-core-1.0.4.jar重命名为hadoop.core.jar,并把hadoop.core.jar、及其lib目录下的commons-cli-1.2.jar、commons-lang-2.4.jar、commons-configuration-1.6.jar、jackson-m
SAP特别设立了一个“大数据”合作伙伴理事会。该理事会致力于进行合作创新,研发基于SAP实时数据平台和Hadoop的新产品解决方案,探索新应用和架构
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。