刘刚表示,目前Hadoop的应用正在从互联网行业到传统行业快速的扩张,但是在传统行业中Hadoop还是要面临很多困难:Hadoop的安全性不能满足他们的需求;Hadoop的人才缺少;怎么把传统的业务迁移到Hadoop平台上来处理。
-什么原因吸引你钻研Hadoop技术?
记得四年前跟着PKU的曹老师做项目的时候,曹老师让我去调研大数据技术,那个时候hadoop资料很少,只能去看官方的文档。印象最深的是花了两周搭建了一个节点的hadoop集群。过程虽然困难,当搭建成功的那一刻,所有的困难全部变成了宝贵的经验。
Hadoop自带了分布式存储(HDFS)和分布式计算(MapReduce),随着互联网的快速发展,网络上产生的数据量越来越大,这些数据80%以上是非结构花的,所以存在传统的Oracle或者Mysql里面已经不合适了。这个时候,Hadoop可以完美的解决这个问题。不仅解决了存储问题,同时计算的问题也解决了。
-对于解决哪些问题Hadoop独具优势?
Hadoop在国内使用差不多快6年左右了,目前来看Hadoop在互联网行业使用的比较广泛,主要用于:
1)日志的存储和离线分析。
2)基于Mahout的推荐挖掘。
3)使用Hbase来实现一些半实时的应用。
-目前企业应用Hadoop最大的困难是什么?
在互联网企业Hadoop的使用还是比较好的,但是在传统的行业里面(银行、电信),使用Hadoop还是有困难的。
1)Hadoop的安全性不能满足他们的需求。
2)Hadoop的人才缺少。
3)最重要的是怎么把传统的业务迁移到Hadoop平台上来处理。
-根据您的了解,目前Hadoop发展的情况如何?
Hadoop在未来5-10年还是海量数据存储和计算的首选工具,目前发展的非常迅速,而且正在从互联网行业向传统行业发展。
-请谈谈你在这次Hadoop培训上即将分享的话题。
我将会分享Hive实战课程,希望通过这次分享,能够让大家掌握使用Hive来分析Hadoop上面的数据。这次讲课以一个Hive的项目开始,来逐一讲解Hive的常用功能和实战经验。
-哪些人群应该来参加本次培训?会对他们有哪些帮助?
1)对Hadoop感兴趣的人
2)数据分析师
3)DBA
原文链接:http://www.csdn.net/article/2014-05-12/2819721-Hadoop-Hive
Hadoop故障排除:jps 报process information unavailable解决办法,jps时出现如下信息:4791 -- process information unavailable
解决方法could only be replicated to 0 nodes, instead of 1,1、停止hadoop脚本:bin/stop-all.sh(在进行2、3步前,注意数据的备份)2、删除主节点和从节点上的hadoop根目录下的临时文件夹,比如$HADOOP_HOME/hadooptmp。
hbase是什么? 首先hbase是一个在Hadoop的HDFS分布,hbase集群中的节点分为HMaster Server和HRegion Server两种,采用Master-Slave的模式,但是不像hadoop中的集群那样有单点故障的问题。
Hypertable on HDFS(hadoop) 安装,安装指南过程4.2.Hypertable on HDFS创建工作目录$ hadoop fs -mkdir /hypertable$ hadoop fs -chmod 777 。
大约十年前,业界开始采用 Reed Solomon code对数据分发两份或三份,替代传统的RAID5或RAID6。由于采用了廉价的磁盘替代昂贵的存储阵列,所以这种方法非常经济。Reed Solomon code和XOR都是Erasure Code的分支。其中,XOR只允许丢失一块数据,而Reed Solomon code可以容
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。