在数据为王的时代,数据挖掘能力已成为衡量企业竞争力的重要指标之一。如何利用好通用大数据平台Hadoop,如何选择一款适合企业业务的Hadoop发行版也毫无疑问成为了企业的必备技能。在这个成本高昂的探索过程中,大数据行业内各个顶级盛会无疑就成为了各个机构一个重要的认知和学习途径。在这里,我们一起走进Hadoop Summit 2014。
2014年Hadoop峰会于6月3日至5日在美国圣何塞举行,会议汇聚了Hortonworks、Cloudera、MapR、Gartner、微软、AT&T、Teradata、Red Hat、Yahoo!、SAP等众多知名机构,从技术与实践的角度描绘了围绕大数据处理的整个Hadoop生态圈。
Hadoop市场态势
Allied Market Research调查报告显示,2013至2020,全球Hadoop市场份额将以58.2%的复合年增长率,从20亿美元增长至502亿美元,增长幅度超25倍。其中大数据分析需求是整个Hadoop市场的主要驱动力,也吸引了众多IT淘金者参与。纵观本次Hadoop峰会,笔者盘点了3个代表性事件,这里给大家分享。
1. IT传统巨头和新贵联合,Hadoop生态圈烽火再燃
微软SQL Server市场推广总经理Eron Kelly与Hortonworks战略营销副总裁John Kreisa宣布了微软与Hortonworks的合作关系,并表示微软将与Hortonworks一起打造用户熟悉的Hadoop数据处理工具。
Kelly表示,在数据解决方案不停演变的过程中,微软一直追求着利用Windows工具实现数据访问,旨在降低解决方案中的专有特性。在专有与Hadoop之间,微软选择了Hadoop并与Hortonworks合作。
Kreisa同样赞成了微软期望使用Excel就可以处理大数据的愿景,愿意与微软一起将Hadoop这项技术带入主流的IT市场。
2.传统行业驻足,Hadoop生态圈活力倍增
Hadoop峰会期间,Hortonworks主持召开了一个分析师会议,旨在听取他们的实践经验,在这个会议上,让他们惊讶的是一些老牌公司已经拥抱了Hadoop。
British Gas是一个250年历史的老牌公司,他们正在给百万家庭安装智能电表
TrueCar也在积极拥抱Hadoop,虽然他们并没有任何Hadoop使用经验和传统
取代技术层面,Sprint的Hadoop之旅开始于业务和分析师,他们一起负责收集大量数据,找出可能的艺术
Hortonworks战略副总裁Shaun Connelly指出,时代在变迁,市场在变化,在许多年前你根本不会想到IBM、Cisc、Sprint等公司会签署支持开源平台的协议。Hadoop的真正价值在于实践以及将它作为推进业务本身变革的工具,就像从British Gas朋友描述的愿景来猜测,你根本不可能想到这是一个燃气公司。
3. 一招鲜,吃遍天,Actian诠释快的意义
Actian公司顾问兼阿姆斯特丹大学高级研究科学家Peter Boncz表示,成熟度并不是SQL的第一关注,将SQL/Hadoop解决方案作为组件添加到传统数据库系统中的设计思路往往根本没有考虑到分析型工作负载的具体要求,而Vortex恰恰弥补了这一点,它不仅是Hadoop基础设施的原生组成部分,在远超于当下系统的速度上,分流更新机制更避免了系统更新对底层HDFS的影响。
Hadoop生态圈的衍变
就像Hortonworks战略副总裁Shaun所说,时代在变迁,市场在变化,在企业业务需求的刺激下,Hadoop生态圈也在不停的衍变,这里我们主要从Hadoop Summit 2014大会上展现的3个大变化入手。
1. 从技术到应用,消除特定类型人才的依赖
历经数年的发展,各大解决方案供应商已开始关注非技术人员的使用体验及挖掘数据的有效性。Pentaho公司指出,如今数据科学家需要把80%多的工作时间用在错误过滤、解决一致性以及兼容性处理上,当下已经有众多解决方案提供商开始关注这个点,比如Pentaho和Talent。
除下进一步提高平台的生产力,消除技术方案对于特定类型人才的高度依赖也是亟待解决的问题之一,而Actian和Altoscale正是致力于此的两家公司。前者致力于降低数据科学家在提取价值过程中所占的比重,后者则是致力解决非技术人员使用平台的难度。
2. 安全挑战,跨数据中心的数据传输
Hadoop的发展一直受货币化、多竞争对手、技术差距、安全等众多因素掣肘,数据安全无疑是最重要的一环。为了提供一个安全的数据传输环境,各个公司可谓是绞尽脑汁——Hortonworks收购安全初创公司XA Secure,Cloudera捕获Gazzang。
WANdisco CTO Jagane Sundar指出,随着机构建立更多的数据中心,跨数据中心的数据传输已成为必然趋势,在高可用性保证之上,各个机构还需要切实的保障用户数据安全,WANdisco通过单HDFS和单点认证解决。
3. 成果为王,敏捷、用户体验必不可少
Teradata公司软件业务高级副总裁Oliver Ratzesberger表示,企业需要掌握新型市场与新型客户的实际需求,如果无法真正从数据及分析中获取价值,所有的努力都是无用功。他认为,在价值提取的过程中,敏捷是重中之重,如果无法在最短的时间内得到切实、有效的信息,平台将会被用户抛弃。在被问及敏捷基础设施打造时,Oliver表示, CIO是敏捷化的发起者,CMO,CEO,甚至董事会的决策至关重要。
顶级碰撞:Hortonworks vs. Cloudera
在会议上,WANdisco CTO Jagane曾指出,虽然Cloudera和Hortonworks是这个市场上两个最强大的玩家,但是关注点的不同,注定这个领域会有两个最大的赢家。其中Cloudera更关注企业本身,而Hortonworks更关注开源。同时,受欢迎的发行版也绝对不止是这两家公司,上百公司的创新无疑让Hadoop生态圈更加繁荣。
然而在市场的成熟、竞争白热化的当下,情况却并非如此。在Hadoop Summit上,Cloudera收购一家专注于Hadoop安全事务的企业Gazzang无疑就是一次针尖对麦芒的战略。
Wikibon分析师Jeff Kelly指出,两个收购直指Hadoop业务重点所在,也就企业级需求的满足。一旦Hadoop运行在敏感数据环境中,安全上所做的任何举措都有可能是成败的关键,而他们这么做只是为了抵消优势。
Kelly还表示,虽然未来有着502亿美元的市场,但是新的大数据市场同样极为残酷,两家公司最后的结局必然以收购或被收购结束。而在这个过程中,双方持有的资金,与各个领域巨头的合作将左右结果的发展。
写在最后
在这个多金的市场,各个解决方案提供商可谓是“八仙过海,各显神通”,白热化的竞争确实描绘出了一个令人兴奋的积极态势,然而如果这个市场可以容纳多个巨头,那么更关注市场的需求和用户的体验,未来似乎更加令人向往。
Nutch集成slor的索引方法介绍? ?* 建立索引? ?* @param solrUrl solr的web地址? ?* @param crawlDb 爬取DB的存放路径:\crawl\crawldb
我们想了个办法:把海量数据分成小块,让一台机器处理一小块数据,所有的机器同时工作。最后把结 果汇总起来。这就是“并行计算”。hadoop中的MapReduce就是专门用来做分布式计算的并行处理框架。hadoop就是用来解决大数据的存储和计算的。
以Hadoop Tutorial为主体带大家走一遍如何使用Hadoop分析数据!MapReduce框架由一个Jobracker(通常简称JT)和数个TaskTracker(TT)组成(在cdh4中如果使用了Jobtracker HA特性,则会有2个Jobtracer,其中只有一个为active,另一个作为standby处于inactive状态)。JobTr
重谈下MapReduce框架中用户经常使用的一些接口或类的详细内容。了解这些会极大帮助你实现、配置和优化MR任务。当然javadoc中对每个class或接口都进行了更全面的陈述,这里只是一个指引教程。
hadoop常见问题解决:WARN mapred.LocalJobRunner: job_local910166057_0001o
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。