深入Hadoop磁盘部署的算法-Hadoop-中存储网

2014-08-04 20:09:19

来源
中存储网

Hadoop

首先来看Hadoop集群中的主节点。因为主节点需要更高的可靠性，一般会配置上vSphere的高可用性（High Availability）和容错（Fault Tolerance）特性，所以共享存储是必须的。下面是json格式的配置文件的片段，显示如何指定主节点组的存储。

在一个Hadoop集群中有不同类型的节点，它们对磁盘的要求是不同的。主（master）节点侧重于存储的可靠性，数据（data）节点就需要更好的读写性能，以及较大的容量。
　　在虚拟集群中，存储（datastore）可以分为本地（local）和共享（shared）两种类型。本地存储只能被其所在的主机上的虚拟机访问，而共享存储则可以被其他主机上的虚拟机访问到。本地存储的读写性能更好，而共享存储的可靠性更好。
　　磁盘部署的算法会根据用户输入，为不同类型的Hadoop节点提供最优的存储方案。
　　首先来看Hadoop集群中的主节点。因为主节点需要更高的可靠性，一般会配置上vSphere的高可用性（High Availability）和容错（Fault Tolerance）特性，所以共享存储是必须的。下面是json格式的配置文件的片段，显示如何指定主节点组的存储。
　　1 {
　　2 “nodeGroups” : [
　　3 {
　　4 "name": "master",
　　5 "roles": [
　　6 "hadoop_namenode",
　　7 "hadoop_jobtracker"
　　8 ],
　　9 “instanceNum”: 1,
　　10 “instanceType”: “LARGE”,
　　11 “cpuNum”: 2,
　　12 “memCapacityMB”:4096,
　　13 “storage”: {
　　14 “type”: “SHARED”,
　　15 “sizeGB”: 20
　　16 },
　　17 “haFlag”:”on”,
　　18 “rpNames”: [
　　19 "rp1"
　　20 ]
　　21 },
　　从第13行开始是关于存储的配置，指定使用共享类型的存储（第14行“type”：“SHARED”），大小为20GB。第17行“haflag”：“on”指定使用vSphere的高可用性（HA）特性。Serengeti在分配磁盘的时候会为主节点分配共享类型的存储。
　　下面来看Hadoop集群中的数据节点。这些节点会有大量的磁盘读写操作，根据用户指定的可以使用的存储的类型，系统会使用不同的磁盘部署算法。

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

深入Hadoop磁盘部署的算法

分析微软HadoopOnAzure的大数据处理功能

Hadoop峰会：Cloudera与Hortonworks谁能一骑绝尘？

Hadoop的效能管理--数据篇

Hadoop作业的生命周期

Hortonworks的首次收购给Hadoop安全开了个好头

科技要闻

IDC 发布《FutureScape 2025 年全球制造业预测 – 亚太地区（不包括日本）影响》报告

60国签署巴黎AI峰会声明，美英缺席

一月手机激活量统计数据出炉：华为领跑，小米崛起，苹果失速！

Nasuni 2024年财报创纪录

慧荣Silicon Motion公布24 财年第四季度财务业绩

深入Hadoop磁盘部署的算法

相关推荐

科技要闻