给刚学习Hadoop朋友的一些建议_Hadoop

说到大数据，很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了，我现在创业，遇到很多传统数据行业往Hadoop上面去转型的公司和个人，提了很多问题，大多数问题还都是差不多的。所以我想整理一些，也可能是很多人都关注的问题。

　　关于Hadoop版本的选择?

目前为止，作为半只脚迈进Hadoop大门的人，我建议大家还是选择Hadoop 1.x用。可能很多人会说，Hadoop都出到2.4，为啥还用1.x呢，说这话一听就没玩过hadoop。

理由一： Hadoop 1.x和2.x是完全两个不同的东西，并不是像说单机的webserver从1.0升级到2.0那么简单的事情。也不是说我现在用的mysql 5.0，只要编译一个新版本就直接无缝迁移到5.5的事情。Hadoop从1.0过度到2.0是整个架构体系全部推翻重写的。从实现方式到用户接口完全是两个完全不同的东西，不要简单的认为那不过就像nginx从0.8升级到1.4一样。所以我给的建议是，生产环境用1.x，实验环境部署2.x作为熟悉使用。

理由二：依然是，Hadoop不是webserver，分布式系统尽管Hadoop实现出来了，但是他仍然是非常复杂的一套体系，单说HDFS存储，以前 Hadoop 0.20.2想升级到0.20.203，首先你需要在所有节点部署上新版的Hadoop，然后停止整个集群的所有服务，做好元数据备份，然后做HDFS升级，还不能保证HDFS一定能升级成功。这样升级一次的代价是很大的，停服务不说，万一升级不成功能不能保证元数据完整无误都是不可预知的。远比你想象的麻烦的多得多得多。千万不要以为有了Cloudera Manager或者其他管理软件你就真的可以自动化运维了，部署Hadoop只是万里长征的第一步而已。

理由三： Hadoop 2.x目前很不稳定，Bug比较多，更新迭代速度太快，如果你想选择2.x，想清楚再做决定，这玩意不是说你选择新的版本就万无一失了，Openssl多少年了，还出现了心脏滴血的漏洞，何况刚出来才不到一年的Hadoop2，要知道，Hadoop升级到1.0用了差不多7，8年的时间，而且经过了无数大公司包括Yahoo，Facebook，BAT这样的公司不停的更新，修补，才稳定下来。Hadoop2才出现不到一年，根本没有经过长期稳定的测试和运行，看最近Hadoop从2.3升级到2.4只用了一个半月，就修复了400多个bug。

所以，不建议大家现在直接在生产集群就上2.x，再等等看吧，等稳定了再上也不迟。如果大家关注Apache JIRA的话，可以看到Hadoop 3.0已经开始内部bug跟踪了。

　　关于Hadoop的人才?

我觉得企业需要从两个方面来考虑hadoop的人才问题，一个是开发人才，一个是维护人才。

开发人才目前比较匮乏，基本都集中在互联网，但这个是一个在相对短时间内能解决的事情，随着Hadoop培训的普及和传播。以及Hadoop本身在接口方面的完善，这样的人才会越来越多。

维护人才我觉得互联网外的行业一段时间内基本不用考虑，不是太多了，而是根本没有。Hadoop和云计算最后拼的就是运维，大规模分布式系统的运维人才极难培养。特别是DevOps，本身DevOps就很稀缺，而在稀缺人才中大部分又是用puppet, fabric去搞web运维的，转向分布式系统运维难度还是有的。所以这种人才很难招聘，也很难培养。

然后你需要明确自己想要的开发人才类型，打个比方Hadoop就好象是windows或者linux操作系统，在这个操作系统上，既可以用 photoshop画图，又可以用3dmax做动画，也可以用Office处理表格，但是应用软件所实现的目的是不一样的。这还是需要CTO，CIO对大数据和Hadoop及周边应用有个起码的了解。不要把Hadoop跟mysql php或者传统的J2EE做类比，认为没什么难的，大不了外包。完全不是这么回事。

　　关于Hadoop的培训内容?

经过几家企业的Hadoop内部培训，我发现刚转型企业都有一个问题是贪多。想做一次培训把hadoop和周边所有东西都了解透了，比较典型的是我最近去上海培训的一个公司，从Hadoop到HBase到Mahout到分词到Spark Storm全要听。然后培训机构就只能找几个老师分别讲不同的内容，我觉得这种培训对企业的意义不大，顶多就是给员工一个扎堆睡午觉的机会。

第一、Hadoop就不是一两次讲课就能搞明白的东西，除了理论知识，还需要大量的实践经验的支持。

第二、每个Hadoop生态组件都是一个很复杂的玩意，使用确实简单，但是要真正理解每一个组件没那么容易。尤其是Mahout，Spark，R这些涉及大量统计学和数学理论的玩意，你叫一帮搞产品的，毫无编程和统计学背景的人来听课，他们真的只能睡午觉，我都觉得让他们过来听Hadoop是很残忍的事情，明明听不懂，因为领导在旁边，还不得不努力坚持不睡觉。

第三、每个人擅长的领域不同，没有任何一个老师既能讲Windows服务器运维，又能讲Excal高级技巧还能讲3DMax动画PhotoShop 绘图的。而培训机构为了抢单，往往承诺企业找几个老师一起讲，企业也往往觉得，一样的价格，我把所有都听了，多爽啊。其实不然，每个老师的讲课风格，知识点水平，内容设计都是不同的，鸡肉，面粉，蔬菜放在一起不一定是大盘鸡和皮带面，也很有可能是方便面，最后搞得食之无味弃之可惜。所以企业在选择做培训的时候一定要有的放矢，不要搞大而全，浪费资源不说，还毫无效果。可以分开几种不同的培训方向，找不同的，专业性强的培训机构来完成。当然，这也需要 CTO,CIO具有一定的想法和眼光，更多的是，起码你作为领导者，应该比别人了解的更多一点，不是说技术细节上的，而是技术方向上的把握要比员工更精准。

　　关于与传统业务的对接?

这个也是很多人关心的，特别是传统企业，之前用的是Oracle，大量的数据存放在里面，一下子用Hadoop替代是不可能的。这个我觉得就属于想多了，Hadoop说白了是离线分析处理工具，目的不是代替你的数据库，事实上也根本不可能代替关系型数据库。他所作的是关系型数据库做不了的脏活累活，是原有业务架构的补充，而不是替换者。

而且这种辅助和替换是逐步完成的，不能一蹴而就，在我所认知的范围内，没有任何一家公司上来就说我直接把mysql不用了，直接上Hadoop，碰上这样的，我首先会赞叹他的决心，然后我拒绝给他出方案，我会明确告诉他，这样是不可能的。

Hadoop提供了多种工具给大家做传统数据库业务的对接，除了sqoop，你还可以自己写，Hadoop接口很简单的，JDBC接口也很简单的。

给刚学习Hadoop朋友的一些建议

Hadoop故障排除：jps 报process information unavailable解决办

解决方法could only be replicated to 0 nodes, instead of 1

《Hbase权威指南》深入学习一：认识hbase

Hypertable on HDFS(hadoop) 安装

Erasure Code为Hadoop节省数据恢复带宽

聚焦搜索，数智采购|2021第一届百度爱采购数智大会即将盛大开启

自主创新赋能信息技术产业发展紫晶存储亮相数字中国展会

XSKY统一存储落地首都医科大学宣武医院

大兆科技携智慧医疗存储方案走进中华医院信息网络大会

德赛西威与华为签署全场景智慧出行生态解决方案合作协议