Hadoop的user多半是因为它的High availability和scalability能,而投向它的怀抱(当然,免钱也是个大家"心照不宣"的重要因素)。
不过,一家公司究竟该有几隻大象服务才够?多久该再买一隻大象?身为"象奴",要怎么"说服"主管你还需要更多的大象,其实是个很难的议题。基本上,如果知道目前hadoop cluster运作的相关数据,不仅可以用来规划未来的採购计画,对目前job的执行效能、排程等等也都很有帮助。今天在网路上看到一份资料,介绍了许多hadoop cluster的管理工具,很多甚至还没有听说过(愧!)。文中提到的管理工具,大致可以分为如下几类:
1. NameNode的GC分析:
开启NameNode的GC logging
使用GC Viewer之类工具来观察
分析记忆体的使用pattern、GC造成的暂停、或设定问题
2. HDFS的分析:
HDFS的FsImage档:binary形式的metadata,包含档案+目录的资讯。
转换成text format,然后可以分析资料量和档案的成长情况,每个user/group的使用情况,不适合MapReduce的小档案等等。
3. HDFS的进阶分析:
硬碟的成长与档案的"除役":利用FsImage的修改时间和存取时间来统计档案的使用情况和频率
replication factor的调整:经常存取的档案/目录可以设定较高的replication factor,已经落入"冷宫"的资料则可以降低复製的份数。
做法:log所有送到NameNode的存取请求(TAB分割的栏位),使用pig或MR来分析。
4. Job的分析:
对重复执行的job来说,可以利用歷史执行资料的统计值来调整input split、reducer数目、memory size、combiner等configuration,以改善执行校能
利用Replephant或twitter的hRaven之类的工具来协助分析执行情况
利用Jmxtrans来观察Java process的resource使用情况
利用Linked的White elephant来观察hadoop的资源使用情况
看来,可以玩的东西还很多呢~
Ubuntu 12.04单机版环境中搭建hadoop详细教程,在Ubuntu下创建hadoop用户组和用,创建hadoop用户。
在mac os上安装hadoop的文章不多,本文安装环境的操作系统是 MAC OS X 10.7 Lion,共分7步,注意第三个配置在OS X上最好进行配置,否则会报错“Unable to load realm info from SCDynamicStore”。
Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。Nutch会将封装好的数据采用基于http的POST的方法发送一个请求数据包给solr的服务器,solr.commit();这个方法在前面一篇文章中解释有些偏差,solr的整个事务都是在solr服务器端的,这跟以前的的事务有所
、默认项目名称为MapReduceTools,然后在项目MapReduceTools中新建lib目录,先将hadoop下的hadoop-core-1.0.4.jar重命名为hadoop.core.jar,并把hadoop.core.jar、及其lib目录下的commons-cli-1.2.jar、commons-lang-2.4.jar、commons-configuration-1.6.jar、jackson-m
SAP特别设立了一个“大数据”合作伙伴理事会。该理事会致力于进行合作创新,研发基于SAP实时数据平台和Hadoop的新产品解决方案,探索新应用和架构
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。