操作Hadoop的第一步就是要准备连接工具SSH,完成后启动验证它。
Hadoop是采用ssh进行通信的,此时我们要设置密码为空,即不需要密码登陆,这样免去每次通信时都输入秘密,安装如下:
输入“Y”进行安装并等待自动安装完成。
安装ssh完成后启动服务
以下命令验证服务是否正常启动:
可以看到ssh正常启动;
设置免密码登录,生成私钥和公钥:
在/root/.ssh中生成两个文件:id_rsa和id_rsa.pub,id_rsa为私钥,id_rsa.pub为公钥,我们将公钥id_rsa.pub追加到 authorized_keys中,因为authorized_keys用于保存所有允许以当前用户身份登录到ssh客户端用户的公钥内容:
看看现在能否免密码登录ssh
输入“yes”继续登录:
表明我们成功登录;
使用以下命令可以退出localhost
再次登录进localhost的时候就不需要密码了,如下图所示:
2.安装rsync
我们的Ubuntu 12.10版本默认安装了rsync,我们可以通过以下命令来安装或者更新rsync
3.安装hadoop,家林把下载下来的最新稳定版本的hadoop保存在电脑本地的以下位置:
创建/usr/local/hadoop目录并把下载下来的Hadoop解压/usr/local/hadoop中:
4.在hadoop-env.sh配置Java安装信息.
进入/usr/local/Hadoop/Hadoop-1.2.1/conf
打开hadoop-env.sh:
按下回车即可进入该配置文件:
在前面我们安装Java的时候把Java安装在了“/usr/lib/java/jdk1.7.0_60”,此时我们在hadoop-env.sh配置文件加入如下配置信息
保存退出.
使用source命令使hadoop-env.sh配置信息生效:
此时Hadoop的单机模式配置成功!
为了方便我们在开机启动后也可以立即使用Hadoop的bin目录下的相关命令,可以把bin目录配置到“~/.bashrc”文件中,此时开启启动后系统自动读取“~/.bashrc”文件的内容,我就就可以随时使用Hadoop的命令了:
修改后的文件内容:
保存退出,使用下面的命令使配置生效:
5.验证Hadoop的版本信息,使用“hadoop version”命令即可:
6.运行Hadoop自带的WordCount例子:
首先在hadoop的目录下创建一个input目录并把conf下的所有文件copy到该目录下,需要如下命令即可:
使用hadoop命令运行自带的wordcount程序并把结果输出到output中:
运行过程如下:
一直运行知道完成(因为运行过程有些长,中间省略了一些运行过程,只截取了开始和结束部分):
查看运行结果:
该命令执行后即显示出Wordcount运行input中若干个文件中单词统计结果,如下所示(直截取了其中一部分):
至此,单机模式的构建、配置和运行测试彻底成功!
XSKY开发了基于对象存储XEOS的专用Hadoop HDFS高性能客户端XSKY HDFS Client。
原先支持Hadoop的四大商业机构纷纷宣布支持Spark,包含知名Hadoop解决方案供应商Cloudera和知名的Hadoop供应商MapR。
证券交易数据属于典型的结构化数据,采用Sql on Hadoop[1]技术,既可用廉价PC服务器获得良好的容量线性扩展能力,又可提供便于统计分析的SQL接口方便数据应用开发。
本文总结Hadoop十个认识误区,帮助大家更好地理解和学习Hadoop。由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成,所以我们也看到很多研究机构或教育单位,开始尝试把部分原本执行在HPC 或Grid上面的任务
数据产生后,意味着数据的采集工作已经完成,那么数据的输入与有效输出问题怎么破解?
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。