Hortonworks日前发布了下一代Apache Hadoop的预览发布版。Apache Hadoop承诺会扩大能够在数据处理平台上实施分析的种类范围。
新的Apache YARN调度程序通过提供一个更通用的资源管理框架取代了MapReduce
Hortonworks创始人、开发Hadoop的核心工程师之一Arun Murthy称:“Hadoop 2.0是一个基本的架构改变,使Hadoop的重要性超过了仅仅作为一个批处理平台。这个更新的软件将推动全新的一轮技术创新。
Hortonworks Data Platform 2.0 Community Preview(社区预览版)包含许多用于Hadoop环境的新组件,最主要的是YARN(Yet Another Resource Negotiator,另一种资源协调者)。这是Hadoop的MapReduce工作调度程序的后续产品。
Murthy称,Hadoop开始是作为一个“单个应用平台”制作的,主要是根据提取和索引网站内容制作的。机构现在正寻求把它用于其它工作,如互动查询和实时传输数据的分析。
YARN通过扩大能够在Hadoop平台上做的工作种类改进了MapReduce。MapReduce只能管理批量处理工作,在任何数量节点上执行数据分析,并且当完成之后返回结果。
相比之下,YARN是一种通用的资源管理框架。YARN提供一种运行非批处理工作的基础,如无限期地运行实时数据流以及包含互动查询的工作。用户可以在互动查询中在移动中查询数据。Murthy表示,用户现在可以批量处理MapReduce的工作和在执行TARN工作时进行互动的SQL查询。
Hortonworks负责公司战略的副总裁Shaun Connolly称,使用YARN,你有一个熟悉所有不同类型的工作量和工作需求的集群。因此,它们可以共存。你不要让一个工作占支配地位或者接管这个集群的所有资源。以前,机构必须运行不同的集群以执行不同风格的任务。
HDP 2.0还包括许多新组件,包括一个加快大型和互动工作的YARN插件Apache Tez和提供在一个Hadoop库中运行SQL查询能力的技术集。
HDP 2.0的这个预览版是一个完整的Hadoop发布版,可以在甲骨文VirtualBox或者VMware虚拟环境中运行。
Hortonworks本星期在加州圣何塞举行的2013年Hadoop峰会上发布了HDP 2.0。Rackspace在这个会议上宣布它将提供Hadoop服务,其分析工具由Pentaho提供。Splunk发布一个名为Hunk工具,可查询Hadoop库。数据仓库系统提供商Teradata发布了新的Hadoo应用。VMware升级了vSphere虚拟化管理软件以支持hadoop集群。
XSKY开发了基于对象存储XEOS的专用Hadoop HDFS高性能客户端XSKY HDFS Client。
原先支持Hadoop的四大商业机构纷纷宣布支持Spark,包含知名Hadoop解决方案供应商Cloudera和知名的Hadoop供应商MapR。
证券交易数据属于典型的结构化数据,采用Sql on Hadoop[1]技术,既可用廉价PC服务器获得良好的容量线性扩展能力,又可提供便于统计分析的SQL接口方便数据应用开发。
本文总结Hadoop十个认识误区,帮助大家更好地理解和学习Hadoop。由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成,所以我们也看到很多研究机构或教育单位,开始尝试把部分原本执行在HPC 或Grid上面的任务
数据产生后,意味着数据的采集工作已经完成,那么数据的输入与有效输出问题怎么破解?
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。