大白话讲讲分布式存储系统的架构设计以及容错架构

2024-03-06 22:07:07

来源
Raymon

分布式存储

超级大白话的讲解，还有十多张图的渐进式演进说明，以前即使不了解分布式系统，都绝对能理解一个分布式系统的完整的数据容错架构是如何设计的了。

1、TB级数据放在一台机器上：难啊！

首先，我们来瞧瞧，到底啥是分布式存储系统呢？

其实特别的简单，咱们就用数据库里的一张表来举例。

比如你手头有个数据库，数据库里有一张特别大的表，里面有几十亿，甚至上百亿的数据。

更进一步说，假设这一张表的数据量多达几十个TB，甚至上百个TB，这时你觉得咋样？

当然是内心感到恐慌和无助了，因为如果你用MySQL之类的数据库，单台数据库服务器上的磁盘可能都不够放这一张表的数据！

咱们就来看看下面的这张图，来感受一下。

大白话讲讲分布式存储系统的架构设计以及容错架构

2、到底啥是分布式存储？

所以，假如你手头有一个超大的数据集，几百TB！那你还是别考虑传统的数据库技术来存放了。

因为用一台数据库服务器可能根本都放不下，所以我们考虑一下分布式存储技术？对了！这才是解决这个问题的办法。

咱们完全可以搞多台机器嘛！比如搞20台机器，每台机器上就放1/20的数据。

举个例子，比如总共20TB的数据，在每台机器上只要1TB就可以了，1TB应该还好吧？每台机器都可以轻松加愉快的放下这么多数据了。

所以说，把一个超大的数据集拆分成多片，给放到多台机器上去，这就是所谓的分布式存储。

咱们再看看下面的图。

大白话讲讲分布式存储系统的架构设计以及容错架构

3、那么啥又是分布式存储系统呢？

那分布式存储系统是啥呢？

分布式存储系统，当然就是负责把一个超大数据集拆分成多块，然后放到多台机器上来存储，接着统一管理这些分散在多台机器上存储的数据的一套系统。

比如说经典的hadoop就是这类系统，然后fastdfs也是类似的。

如果你可以脑洞大开，从思想本质共通的层面出发，那你会发现，其实类似elasticsearch、redis cluster等等系统，他本质都是如此。

这些都是基于分布式的系统架构，把超大数据拆分成多片给你存放在多台机器上。

咱们先从分布式系统架构层面出发，不拘泥于任何一种技术，所以姑且可以设定：这套分布式存储系统，有两种进程。

一个进程是Master节点，就在一台机器上，负责统一管控分散在多台机器上的数据。

另外一批进程叫做Slave节点，每台机器上都有一个Slave节点，负责管理那台机器上的数据，跟Master节点进行通信。

咱们看看下面的图，通过图再来直观的看看上面的描述。

大白话讲讲分布式存储系统的架构设计以及容错架构

4、天哪！某台机器宕机了咋办？

这个时候又有一个问题了，那么万一上面那20台机器上，其中1台机器宕机了咋整呢？

这就尴尬了，兄弟，这会导致本来完整的一份20TB的数据，最后有19TB还在了，有1TB的数据就搞丢了，因为那台机器宕机了啊。

所以说你当然不能允许这种情况的发生，这个时候就必须做一个数据副本的策略。

比如说，我们完全可以给每一台机器上的那1TB的数据做2个副本的冗余，放在别的机器上，然后呢，万一说某一台机器宕机，没事啊，因为其他机器上还有他的副本。

我们来看看这种多副本冗余的架构设计图。

大白话讲讲分布式存储系统的架构设计以及容错架构

上面那个图里的浅蓝色的“1TB数据01”，代表的是20TB数据集中的第一个1TB数据分片。

图中可以看到，他就有3个副本，分别在三台机器中都有浅蓝色的方块，代表了他的三个副本。

这样的话，一份数据就有了3个副本了。其他的数据也是类似。

这个时候我们假设有一台机器宕机了，比如下面这台机器宕机，必然会导致“1TB数据01”这个数据分片的其中一个数据副本丢失。如下图所示：

大白话讲讲分布式存储系统的架构设计以及容错架构

那这个时候要紧吗？不要紧，因为“1TB数据01”这个数据分片，他还有另外2个副本在存活的两台机器上呢！

所以如果有人要读取数据，完全可以从另外两台机器上随便挑一个副本来读取就可以了，数据不会丢的，不要紧张，大兄弟。

5、Master节点如何感知到数据副本消失？

现在有一个问题，比如说有个兄弟要读取“1TB数据01”这个数据分片，那么他就会找Master节点，说：

“你能不能告诉我“1TB数据01”这个数据分片人在哪里啊？在哪台机器上啊？我需要读他啊！”

我们来看看下面的图。

大白话讲讲分布式存储系统的架构设计以及容错架构

那么这个时候，Master节点就需要从“1TB数据01”的3个副本里选择一个出来，告诉人家说：

“兄弟，在哪台哪台机器上，有1个副本，你可以去那台机器上读“1TB数据01”的一个副本就ok了。”

但是现在的问题是，Master节点此时还不知道“1TB数据01”的副本3已经丢失了，那万一Master节点还是通知人家去读取一个已经丢失的副本3，肯定是不可以的。

所以，我们怎么才能让Master节点知道副本3已经丢失了呢？

其实也很简单，每台机器上负责管理数据的Slave节点，都每隔几秒（比如说1秒）给Master节点发送一个心跳。

那么，一旦Master节点发现一段时间（比如说30秒内）没收到某个Slave节点发送过来的心跳，此时就会认为这个Slave节点所在机器宕机了，那台机器上的数据副本都丢失了，然后Master节点就不会告诉别人去读那个丢失的数据副本。

大家看看下面的图，一旦Slave节点宕机，Master节点收不到心跳，就会认为那台机器上的副本3就已经丢失了，此时绝对不会让别人去读那台宕机机器上的副本3。

大白话讲讲分布式存储系统的架构设计以及容错架构

那么此时，Master节点就可以通知人家去读“1TB数据01”的副本1或者副本2，哪个都行，因为那两个副本其实还是在的。

举个例子，比如可以通知客户端去读副本1，此时客户端就可以找那台机器上的Slave节点说要读取那个副本1。

整个过程如下图所示。

大白话讲讲分布式存储系统的架构设计以及容错架构

6、复制副本保持足够副本数量

这个时候又有另外一个问题，那就是“1TB数据01”这个数据分片此时只有副本1和副本2这两个副本了，这就不足够3个副本啊。

因为我们预设的是每个数据分片都得有3个副本的。大家想想，此时如何给这个数据分片增加1个副本呢？

很简单，Master节点一旦感知到某台机器宕机，就能感知到某个数据分片的副本数量不足了。

此时，就会生成一个副本复制的任务，挑选另外一台机器来从有副本的机器去复制一个副本。

比如看下面的图，可以挑选第四台机器从第二台机器去复制一个副本。

大白话讲讲分布式存储系统的架构设计以及容错架构

但是，现在这个复制任务是有了，我们怎么让机器4知道呢？

其实也很简单，机器4不是每秒都会发送一次心跳么？当机器4发送心跳过去的时候，Master节点就通过心跳响应把这个复制任务下发给机器4，让机器4从机器2复制一个副本好了。

同样，我们来一张图，看看这个过程：

大白话讲讲分布式存储系统的架构设计以及容错架构

看上图，现在机器4上是不是又多了一个“1TB数据01”的副本3 ？那么“1TB数据01”这个数据分片是不是又变成3个副本了？

7、删除多余副本

那反过来，如果说此时机器3突然恢复了，他上面也有一个“1TB数据01”的副本3，相当于此时“1TB数据01”就有4个副本了，副本不就多余了吗？

没关系，一旦Master节点感知到机器3复活，会发现副本数量过多，此时会生成一个删除副本任务。

他会在机器3发送心跳的时候，下发一个删除副本的指令，让机器3删除自己本地多余的副本就可以了。这样，就可以保持副本数量只有3个。

一样的，大家来看看下面的图。

大白话讲讲分布式存储系统的架构设计以及容错架构

8、总结

好了，到这里，通过超级大白话的讲解，还有十多张图的渐进式演进说明，相信大家以前即使不了解分布式系统，都绝对能理解一个分布式系统的完整的数据容错架构是如何设计的了。

实际上，这种数据分片存储、多副本冗余、宕机感知、自动副本迁移、多余副本删除，这套机制，对于hadoop、elasticsearch等很多系统来说，都是类似的。

重点是人家的设套设计思想去进行吸取，这样，以后学习类似的一些技术的时候，对他们的原理、思想都会感到一种似曾相识的感觉。

作者：Raymon Java技术专家+架构师，个人公众号搜索OpenCoder

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

猜你喜欢

填补空白！首个《高性能计算分布式存储系统技术要求》发布

分布式存储

迎接“全全闪”时代 XSKY星辰天合发布星海架构和星飞产品

分布式存储

焱融科技入选赛迪 2022 中国分布式存储报告挑战者象限

存储资讯

分布式存储初创公司 W3 Storage Lab 种子轮融资 300 万美元

分布式存储

分布式vs.集中式，存储架构如何选？

存储资讯

N2W 宣布为 Kubernetes 提供下一级别自动备份与恢复功能

备份软件 N2W Kubernetes

Cloudflare 3周2宕，宕机事件暴露了人工智能和支付依赖的风险

BCM Cloudflare 宕机事件

嵌入式安全：嵌入式系统制造商如何通过安全启动密钥管理加强保护

网络安全嵌入式系统安全启动密钥管理

X平台发布全新“Chat”功能，新增端到端加密与视频通话

网络安全端到端加密

PostgreSQL 数据库开源接口 pgAdmin4 中发现严重的远程代码执行（RCE）漏洞

数据库安全安全漏洞 pgAdmin4

Wasabi 推出隐蔽复制功能，提升云存储安全，防勒索软件

云存储 Wasabi 云存储安全

HostColor 在迈阿密数据中心推出新的 AI 兼容云和裸机服务器

云存储 HostColor AI服务器

Inveniam 收购 Storj 为去中心化数据基础设施的未来提供动力

云存储 Inveniam Storj

Smash 专为创意社区设计的新服务取代传统文件传输

云存储 Smash 文件共享

ASI Solutions 推出 InfiniStor 云存储平台

云存储

我国科学家在量子体系中实现突破商业化落地迎关键拐点

量子计算量子计算

江门中微子实验精度提高1.5~1.8倍

量子计算中微子粒子物理学

2030 年比特币会被量子计算机攻破吗？

量子计算

NODKA IPC-615H5-Q670利用英特尔的处理和工具集提高性能

AI算力 NODKA PC服务器英特尔处理器

LDRA 宣布其 LDRA 工具套件现在支持对多核架构上的时序耦合干扰的增强分析

AI算力 LDRA 时序耦合干扰

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案

数据中心数据中心冷却技术绿色数据中心

美光战略调整，彻底退出消费级内存市场，2026年起停售DDR内存和SSD

内存美光内存内存市场

电源和冷却限制是未来三到五年人工智能数据中心增长的重大障碍

数据中心数据中心电源数据中心冷却

慧荣科技宣布推出SM8388，业界领先的高能效PCIe Gen5企业SSD主控芯片

SSD/闪存企业级SSD SSD主控芯片存储芯片

Supercomputing 2025：西部数据将展示创新的下一代AI存储

磁盘存储西部数据 AI存储

天硕工业级宽温存储方案：智能SLC模式助力关键领域国产化替代

解决方案工业存储 SLC 国产芯片工业级SSD

为AI时代打造的 Pure Storage平台，让数据更智能、更快、更安全、更有趣

解决方案

和硕通过先进的 OCP 解决方案为数据中心的未来提供动力

解决方案数据中心

江苏:县级以下禁止开发政务服务APP

政府行业政务APP APP

瑞金医院联合华为开源RuiPath病理模型，加速行业智能化落地

医疗行业瑞金医院 AI医疗 AI病理模型

科技要闻

Microchip推出数字功率监测器，实现便携式设备测量功耗减半

全球半导体设备市场统计报告：出货量330亿美元，中国占额最大

CISP认证全面介绍，CISP报名条件及培训课程介绍

芯展速“臻·6”发布会圆满礼成国内首发Gen6路标加速「多模态」真正落地

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案