企业容灾建设方案选型指南-1：必须知道的概念

2021-07-30 22:17:33

来源
科技号

广义的容灾，我们可以认为就是业务连续性计划当中的灾难恢复，就是指能够容忍灾难的能力。

1. 什么是企业的容灾？

1.1 什么是企业的业务连续性管理（Business Continuity Management）？

企业的业务连续性是指企业有应对风险、自动调整和快速反应的能力，以保障企业业务的连续运转。为企业的重要应用和流程提供业务连续性应该包括连续操作（Continuous Operations）、高可用性（High Availability）、灾难恢复（Disaster Recovery）三个方面，这几个方面不是孤立存在的，而是相互联系存在的。连续操作强调的指在没有物理故障发生的情况下，保障业务连续的常规运维操作能力；高可用性强调的是基础架构在本地故障的场合下的恢复能力；灾难恢复强调的是在灾难场合下，企业的业务恢复能力。从业务连续性上来讲，企业的容灾也就是我们所说的灾难恢复范畴，应该是业务连续性的子集。

1.2 什么是企业的容灾架构（Disaster Tolerance）？

广义的容灾，我们可以认为就是业务连续性计划当中的灾难恢复，就是指能够容忍灾难的能力。要容忍的灾难类型就包括地震、洪水、火灾等灾害、软硬件故障、网络或病毒攻击、人为蓄意破坏等。容灾能力建设的主要目的，就是在灾难发生的时候，能够保证生产业务系统的不间断运行。

狭义的容灾，我们可以认为是指在相隔较远的区域（同城或者异地），建立两套或多套功能相同的IT系统，互相之间可以进行健康状态监视和功能切换，当一处系统因意外停止工作时，整个应用系统可以切换到另一处，使得该系统功能可以继续正常工作。

1.3 什么是企业的备份和恢复（Backup and Recovery）？

备份和恢复是指备份数据以防数据丢失，且设置安全系统以便恢复数据的流程。数据备份要求复制和存档计算机数据以保证数据损坏或删除后数据仍可访问。数据备份恢复是业务恢复的一种形式，因此它属于业务连续性计划当中的连续操作和灾难恢复范围。备份包括系统备份和数据备份，系统备份是指将系统运行环境作为一个整体进行备份，当发生故障时将系统运行环境整体恢复。数据备份是指将应用系统当中保存的数据作为单独的形式进行备份，当数据发生丢失或者损坏的时候进行恢复。

1.4 什么是企业IT基础架构的高可用（High Availability）？

高可用性（High Availability）通常来描述一个系统经过专门的设计，从而减少停工时间，而保持其服务的高度可用性。企业的高可用架构通常指的是为了在面对数据中心本地软硬件故障场景下，保证业务的连续性而规划部署的非对称（主备、主从）以及对称架构（主主、集群），可以是网络架构、主机架构、数据库架构以及存储架构等类IT基础架构，例如交换机的堆叠技术、负载均衡设备的集群架构、主机的HA架构、数据库的Oracle RAC集群等。

1.5 什么是企业的IT基础架构的容错（Fault-tolerant）？

在计算机通信领域来讲，容错就是指当系统在运行时有错误被激活的情况下仍能保证不间断提供服务的方法和技术。从广义来讲，我们所述的容灾、备份恢复、高可用等都是容错的一种手段。

但是通常来讲，我们对IT基础架构当中的容错性有着约定俗成的专指含义，实际上它是指我们在IT设备配置或者软件配置过程当中，为了杜绝网络线路、设备零件、软件模块等方面的运行错误导致的应用系统中断而采取的冗余性设计。例如网卡的逻辑绑定、存储链路的聚合、LVM逻辑卷设计等等。

1.6 如何理解业务连续性、备份恢复以及容灾？

从范畴上来讲，我们用以下的图来诠释这几个概念的差异。

备份恢复、高可用架构设计、容错设计、容灾都是为了保障业务连续性的一种手段、技术和工具。在广义的容灾设计当中必然也会包括基础架构的高可用设计、设备软件的容错设计以及必要的备份恢复。但是备份恢复、高可用和容错是可以独立存在的，不依赖容灾架构。

从设计功能上来讲，备份恢复不仅仅可以解决由物理故障引起的数据损坏和丢失，而且更重要的是它可以解决由人为的逻辑错误导致的数据损坏和丢失，比如误删数据。备份恢复是一种事后的补救措施，也就是说它只能发生在问题发生之后。容错、高可用、容灾中核心的架构设计是为了解决实时问题，是一种事中解决问题的思路，但是这两者都无法解决人为导致的逻辑错误故障导致的业务中断，只能解决物理故障导致的业务中断问题。
从所属性质来讲，业务连续性是着眼业务层面的一套解决思路或者方法论指导下的制度、流程、方案、技术、工具、资源等一系列元素组成的。而容灾、高可用、备份恢复、容错仅仅是为了保障业务连续而对基础架构进行设计实现的技术工具或者手段。

2. 企业容灾架构的核心目标是什么？

企业容灾架构的核心目标是什么？也就是说我们为什么要花这么大力气去搞容灾建设？就一句话，RTO&RPO是搞容灾建设的最核心目标，一切容灾建设目的都需要回到RTO和RPO的评估上来。

① RTO：企业可容许服务中断的时间长度，简言之业务可以恢复的最快时间。

② RPO：企业可容许数据丢失的数量级，简言之数据可以恢复到最新的时刻点。

如图所示，RTO关注的是数据丢失的多少，而对什么时候恢复业务中断没有要求；RPO关注的是什么时候恢复业务，但是历史数据丢失多少并没有要求。只有这两个结合起来才是对现实生活当中的业务连续性的约束。要实现什么样的RTO&RPO目标，一定会有相应的方案来支撑，也必然有对此方案需要付出的IT成本投入。我们评估容灾的目标要求，一定是从RTO&RPO的选定范围出发，然后权衡企业可以付诸的投入，最终确定合理的容灾建设方案。

3. 企业容灾架构的行业标准都有哪些？

3.1 企业容灾的国家级标准？

《信息安全技术信息系统灾难恢复规范》国家标准（GB/T20988-2007）是我国灾难备份与恢复行业的第一个国家标准。该标准由国务院信息化工作办公室领导编制的，并于2007年11月1日开始正式实施。该标准规定了信息系统灾难恢复应遵循的基本要求，适用于信息系统灾难恢复的规划、审批、实施和管理，并参照国际标准SHARE78的7个层级定义，确定了符合中国国情的6个灾备能力等级要求。下面，概括性地介绍各个层级的内容：

1级：数据定时备份、异地存放。

2级：数据定时备份、异地设备冷备。

3级：数据定时备份、异地部分业务热备接管。

4级：数据定时备份、异地业务热备接管。

5级：数据实时备份、异地业务热备接管。

6级：零数据丢失、远程自动接管支持。

3.2 企业容灾的行业监管标准？

对于评价容灾的RTO&RPO这两个指标，不同的行业有不同的行业标准，例如人民银行在2008年的《银行业信息系统灾难恢复管理规范》当中规定：银行类信息系统恢复要求：

① 一类信息系统：RTO<6小时，RPO<15分钟。

② 二类信息系统：RTO<24小时，RPO<120分钟。

③ 三类信息系统：RTO<7天。

对于银行行业来讲，所有容灾建设必须遵循这个最低要求。在此基础之上，不同的企业对自身有不同的要求。比如工商银行、招商银行之类发展比较优秀的银行企业对自己提出了更高的要求(RTO~0，RPO~0)，有些小的地方银行则因为成本问题，是为了达到银监局及人民银行的最低要求而搞容灾建设。但是无论是出于什么样的目的搞容灾建设，最终必然要回到对RTO和RPO的评估上来，没有这两个核心目标的选择，则一切容灾建设方案都无根可寻。

3.3 企业容灾的自我衡量标准？

另外一种标准就是企业本身的业务要求，例如生产企业，RTO是可以直接计算企业损失的指标，如果停产1个小时将会给企业带来多少可计算的损失以及不可计算的损失。我们可以根据这个损失来衡量可以为容灾建设付出的成本范围。

4. 企业容灾架构都包含哪些技术框架？

企业的容灾架构根据容灾的地域距离可以划分为本地容灾和异地容灾，而且整个容灾架构不是单独的一类技术或者一类工具，而是系统的整体技术框架，包含了很多的元素和技术体系，如果分解阐述，可以从纵向和横向进行分解描述。

首先，从纵向来讲，整个容灾架构包括网络层、负载分发层、应用中间件层、应用层以及数据涉及的数据库和存储层，其中数据层最为重要，直接关系到RPO指标，应用层往上则主要关系到RTO指标。接着，我们从横向上来讲，会包括集群技术、数据复制技术以及应用切换技术，数据复制技术又是整个容灾的关键，因为它直接关系到RPO指标，应用切换技术则直接关系到RTO指标，集群技术一般是指在近距离（例如同城）场合下的数据复制和应用切换技术的融合体。最后，我们从整体基础架构来讲，为了支撑以上技术体系的实现，我们需要有一系列的软硬件基础架构来支撑其最终的实现，比如我们的交换机、服务器、存储、备份介质、网络线路以及为了实现应用的切换和数据复制技术体系所需要的SDN、LB、GLB、VM、HA、DB Cluster、Storage Gateway、Storage DP等软件模块。

接下来，我们来看实现企业容灾架构横向支撑的一些关键技术：

① 网络的跨地域L2技术（主要为虚拟机的漂移、集群IP地址漂移等）：同城距离可以采用波分设备和思科的OTV技术来实现跨中心的L2技术，但是这种技术可跨越的距离仅限百公里范围内级别。另外一类就是采用Overlay隧道技术，在原有网络基础架构之上通过逻辑隧道的模式实现L2的传输，这种技术不受距离限制，但是性能不是最佳。

② 跨数据中心负载分发技术（主要为客户端访问流量的切换）：通常需要域名解析DNS与本地负载均衡LB结合来实现全局的负载分发。DNS需要能够实现动态解析，也就是根据备选地址池的健康状况来确定最终的业务地址。本地不在均衡LB实现本地内的负载导流。如图所示：

③ 跨数据中心VM集群内漂移技术（主要为应用的跨地域高可用服务）：通常可以通过虚拟机的跨地域集群技术实现，只要具备跨数据中心L2网络和存储卷共享的条件，基本上都可以实现。关于跨区域的L2网络技术，上述章节已讨论过。存储卷共享可以通过NAS或者分布式存储来实现。

④ 跨数据中心数据复制技术（主要为数据跨区域冗余服务）：数据复制技术是关键，它是保障容灾目标RTO&RPO的关键技术，根据容灾级别的不同，可分为同步复制和异步复制，所使用的实现手段也因此而不同。关于它的具体实现方式，可以考虑从三个层面落地：系统层的双写、数据库层的数据复制、存储层的复制。具体实现方式及其优劣在后续文章详细介绍。

5. 数据复制技术在企业容灾架构当中的意义？

如果上升到商业业务的高度，那么一切容灾技术都是为了业务的连续性服务的。

具体来说，数据复制技术即完成数据从一个数据中心到另外的数据中心的冗余性保护。一旦发生灾难导致一个数据中心的数据丢失或者损坏，可以通过另外一个数据中心的数据来支撑应用系统运行。没有应用系统的不中断运行就没有业务的连续性可言，没有数据的存在就没有应用系统的不中断运行可言，没有数据复制技术的支撑就没有容灾的必要性可言。数据在应用系统当中的地位直接决定了数据复制技术在容灾框架当中的绝对必要性地位。

① RPO：简言之，RPO就是衡量灾难时刻依靠容灾手段可以丢失的最少数据。数据复制的及时性直接决定RPO的量级标准，如果数据复制是同步模式，那么RPO必然是零。如果数据是异步模式，那么RPO就直接与数据复制的异步效率指标息息相关。

② RTO：简言之，RTO就是衡量灾难时刻依靠容灾手段可以恢复业务的最短时间。这个不仅仅取决于数据复制技术，还要依赖于纵向的网络、负载分发、服务器、应用、数据库、存储等各个层面的恢复技术。但是，数据复制技术一定是所有恢复技术的基石，没有这个基石，及时所有层面都恢复了，没有数据的业务访问也依然无效。

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。