2015-12-19 19:11:11
来 源
中存储
容灾
说到GDPS 双活解决方案的适用场景,我们需要明确GDPS双活解决方案是一个新生的且持续发展的解决方案,总共分成三个阶段,第一阶段为GDPS Active-Standby, 第二阶段为 GDPS Active-Query, 第三阶段为 GDPS Active-Active, 当前处于第二个阶段.
背景知识 : GDPS A-A ;z/OS;DB2z;QREP; Lifeline; SA; Netview
大纲 :
A. 为什么采 用两地三 中 心GDP S双活解 决方 案
B. GDPS双活解决方案的技术组成
A. 为什么采用两地三中心GDPS 双活解决方案?
首先澄清 一个概念 ,如果我 们仅仅是 指两地三 中 心GDP S灾备解 决方案的 话,那么 早在七- 八年前国 内很多大 行就已经 做到了这 一点,具 体的实现 多是通过 同城两个 中心 的GDP S PPR C解决方 案联合异 城两个中 心 的GDP S z/OS Global Mirror或者GDPS Global Mirr o r解决方 案.我 们这里提 到的两地 三中 心GDP S双活解 决方案是 近三年来 很火的一 个专题, 而且因为 今年在某 一大行的 成功实施 ,使得这 个主题无 数次被提 及,那么 为什么要 采用两地 三中 心GDP S 双活解决 方案呢? 哪些场景 下可以用 到这个解 决方案 ?
想来大家 都应该看 到过:银 行营业网 点或者银 行官网上 会发出因 为某系统 升级或者 故障从凌 晨几点到 几点无法 做交易的 消息. 事实上无 论是计划 内的应用 ,数据库 ,中间件 ,系统和 硬件升级 维护,或 者计划外 的系统综 合 休(SY SPLE X)级的 故障,还 是突如其 来的火灾 ,地震, 水灾,以 及最要命 的恐怖袭 击,都有 可能造成 银行系统 的不可用 ,进而造 成业务的 中断.各 大行都迫 切希望减 少计划内 和计划外 停机的业 务不可用 时间,最 好能够在 面对各种 极端情况 时,依然 能够保证 业务的持 续可用性 ,让用户 感觉不到 有任何故 障存在, 故两地三 中 心GDP S 双活业务 持续可用 解决方案 应运而生 .该解决 方案在不 同城市的 两个数据 中心间沿 用已经存 在 的GDP S z/OS Global Mirr o r灾备解 决方案, 其核心则 在于同城 两个数据 中心间 的GDP S双活方 案,从而 使得关键 应用运行 于同城的 任一个数 据中心, 在这两个 数据中心 之间做到 自如地站 点级别切 换,一个 站点的应 用故障不 会影响到 另外一个 站点的应 用操作 .
GDP S双活的 英文全称 是Geo grap hica lly Dispersed Parallel Sysplex Acti ve-A ctiv e,即地 理分散并 行系统综 合体双活 解决方案 . 该解 决方案由 两个分布 于不同数 据中心的 并行系统 综合体组 成,这两 个数据中 心的功能 分布 是1: 1模式, 同时对外 提供服务 ,数据中 心间实现 负载均衡 ,任何一 个中心具 备100 %生产支 持能力, 具备无缝 业务切换 能力,减 少应用停 机时间, 从而保证 业务的持 续可用性 .
说到GDPS 双活解决 方案的适 用场景, 我们需要 明 确GDP S双活解 决方案是 一个新生 的且持续 发展的解 决方案, 总共分成 三个阶段 ,第一阶 段 为GDP S Active-Standby, 第二阶段为 GDPS Active-Query, 第三阶段为 GDPS Active-Active, 当前处于第二个阶段.
在当前GDPS Acti ve-Q uer y通常的 配置中, 两 个Act ive 的站 点A和B ,站 点A是生 产站点, 主要用于 运行核心 业务,包 含OLT P (联机事 务处 理) 和批量作 业, 站 点B则只 用于运行 只读 的Que ry (查 询),并 且随时准 备着运 行OLT P和批量 作 业. 如 果在站 点B上监 控到端到 端的延时 超过预定 义的阈值 ,那 么Que r y能够自 动 地Swi tc h到站 点A去做 运行,当 然这里我 们可以在 一分钟内 通 过SA REX X从监控 表里抽几 次样,如 果几次都 超过的话 ,再做切 换,会更 为合适. 对于站 点A而言 ,如果行 里要对站 点A的生 产系统进 行升级和 改造,以 前在行里 通常需要 请求三到 五个小时 的停机时 间窗 口(遇到 问题的话 ,可能会 更 久),在 这个过程 中,站 点A是无 法对外界 提供服务 的,但是 现在采用 了GDP S 双活方案后,因为站点 B可以无 缝接管站 点A的业 务,所以 可以通 过GDP S A-A作站点级切换,把OLTP Workload 定向到站 点B, 由B站点 对外界提 供业务, 此时所有 的OLT P和Qu ery Workload都运行在了站点B,整个过程 对于客户 而言,都 是透明的 .然后对 站 点A进行 升级,可 以是升级 应用程序 ,硬件 ,DB2 z版本, 甚 至z/O S, 到升级完 成后, 在B站点 停OLT P Wo rklo ad ,反向同 步站 点B改变 的数据到 站 点A, 再把OLTP Workload回切到站点A. 整个过程 中,站点 切换耗时 大 概2分钟 左右,回 切基本上 是相近时 间,在站 点B停O LTP Work loa d并反向 同步数据 耗时大概 是1 0分钟, 加到一起 整个升级 过程把对 外界不能 提供业务 的时间控 制在了十 分钟的级 别,与原 有的三至 五个小时 相比有了 巨大的改 进 .
B. GDPS双活解决方案的技术组成
G 1 -- GDPS 双活解决方案架构
GDP S双活解 决方案在 数据复制 上与传统 的GDP S解决方 案(GD PS PPRC, GDPS z/GM, GDPS GM )有着本 质的区别 ,就在于 它不依赖 于基于硬 件的数据 复制,而 是基于软 件QRE P的异步 复制技术 ,在源站 点QRE P Capt ur e到DB 2改变的 数据,通 过M Q传输到 目标站点 ,再 由QRE P Apply在目标站点Replay Transactions.
GDP S双活解 决方案的 自动化控 制至少体 现 在Wor kloa d级别 ,GDP S A-Q Workload由Software, Data,和Network Conn ecti vit y组成, 分 成Upd ate Workload和Query Work loa d两 种类别, 这 里Que ry Workload必须关联到Update Workload.
在S A的Po lic y中,我 们会定义 相应 的Wor kloa d以包 含CIC S TOR, QCAP, QAPP, DB2和CGs.
G2 -- Update Workload & Query Workload
WKL_CICS_P1_Q 里包含所有Query的 CICS TORs
因为要满 足传输的 性能需要 ,故引 入QRE P MCG. 这里MCG全称为Multiple Consistency Grou p,其名 字 与Wor kloa d名字相 对 应, 针对每个DB2 Data Sharing Group在SA Poli c y中定 义Wor kloa d, 在QRE P控制表 中定 义MC G. 如 对私业 务DB2 DS G的Wo rklo a d名 为WKL _CIC S_P 1,它 在SA Poli c y中的定 义包含所 有对私业 务 的CIC S TORs, DB2 Members, LPAR, SYSPLEX, QCAP地址空间, QAPP地址空间和CGs. 一个CG(Consistency Grou p )对应于 在同一 个REC V Q复制的 所 有DB 2表的集 合.
下面讲一 下QRE P技术, 一言以概 之, 即Log -Cap ture /Tra nsac tion -Rep lay.
G3 : QREP 技术
首先在源端对应于QREP Capture,它会通过DB2 IFI接口,从DB2 Recovery Lo g捕获改 变的数据 , 并Pub lis h到M Q的SE ND Q中,通 过M Q把数据 无损失地 传输到目 标端,在 目标 端QRE P APPL Y负责 从MQ RECV Q中读取 数据,并 重 建SQ L,然后 把它 们App l y到目标 端 的DB 2中Re play Transactions.
之前有提 到QRE P端到端 的延时, 这里给一 个图以示 其组成. 为了保 证QRE P的高性 能,在过 去的日子 里一直致 力于提 升QRE P的吞吐 能力,减 少CAP TURE _LAT ENCY , 减 少QLA TENC Y,减 少APP LY_L ATEN C Y,从而 减少整体 的端到端 延时,以 满足客 户OLT P 5 S以内, 批 量30 S以内的 性能要求 .
G4 QREP端到端的延时组成
下面介绍一下IBM Multi-site Workload Lifeline for z/OS, 在GDP S双活解 决方案中 ,Lif elin e提供智 能路由建 议到外 部Loa d Bala ncer s,以选 择相应 的LPA R去运 行Wor kloa d. Lif elin e由Co ntro ller s上 的Adv iso r和Wo rklo a d所 在LPA R上 的Age n t组成. 下面是 一个很经 典的结构 图.
G5. Multi-site Workload Lifeline结构
1. Advisor与Agent 之间的通信
Agen t注册并 连接 到Adv iso r,Ad viso r发送其 想 要Age n t监控的 所有成员 消息 ,Age n t定期发 送系统健 康状态 到Adv iso r,为了 响 应DEA CTIV AT E命令 ,Adv iso r发 送Ser ver Appl icat io n清单 至Age nt s,让其 重置这 些Ser ver Application的连接.
2. Advisor与Load Bala ncer (负载均 衡 器)之间 的通 信
外部Load Balancer建立与Primary Lifeline Advi so r的连接 ,并且通 过SAS P(Se rver /App lica tion State Protocol) AP I从Ad viso r获得路 由建议, 这 里Adv iso r仅仅提 供建议, 不负责实 际传输或 路由工作 .Loa d Bala nce r多 由Ven do r公司提 供, 如F5, Citrix和Cisco.
3. Advi so r与Ad viso r之间的 通 信
Secondary Advisor连接到Primary Advisor, Primary Advi so r发送它 的配置信 息 和Wor kloa d状态信 息 到Sec onda ry Advisor,当前的Primary Advi so r终止, 或者所在 系统故障 时 ,Sec onda ry Advisor能接管Primary Advi so r的角色 .这里需 要保证两 个Adv iso r的配置 是相同的 .
4. Advisor与Support Element(SE)之间的通信
Advi so r使 用BCP i i地址空 间作为 与SE s之间通 信的桥梁 ,获 得LPA R s的状态 信 息
5. Advisor与Network Management Application之间的通信
Advi so r创 建AF_ UNI X套接字 ,通 过Net work Management Inte rfac e(NM I ),接收 来自网络 管理程序 的连接, 为Ser ver Appl icat ion s提 供Wor kloa d状态信 息,站点 信息,连 接 的Loa d Balancer, Agents和Secondary Advisor信息,以及路由建议.
下面我们将介绍GDPS 双活站点切换中的关键步骤,皆由GDPS A-A代码完成.
1. 站点包含 多 个Wor kloa d s,故在 触发站点 切换时, 触发多 个Wor kloa d s的切 换
PTKA 14165 08:53:23.93 GEO1551I ROUTING SWITCH FOR WORKLOAD WKL_NOVA_P2 INIT IATE
GEO1703I GDPS/A-A ROUTING SWITCH PR 393
. A PLANNED WORKLOAD SWITCH HAS BEEN INITIATED FOR
. WORKLOAD WKL_ NOVA _P2
. TO SITE PLEX PT3
. STOP ANY LONG RUNNING PROC ESSE S.
. ACTIVE SITE: PLEX PT1
. ALTERNATE SITE: PLEX PT3
. REPLY 'OK' TO CONTINUE SWIT CH.
. 'NOK' TO ABORT SWIT CH.
. 'REPEAT' TO REISSUE THE PROM PT.
PTKA 14165 08:53:25.18 013 GEO1642A PLEXPT1 SWITCH WORKLOAD WKL_NOVA_P2 REPLY O K,NO K OR REPEAT
PTKA 14165 08:53:32.40 R 013, OK
IEE600I REPLY TO 013 IS;OK
2. 开始Workload切换,并对站点A Quiesce Workload,以阻止新的连接
PTKA 14165 08:53:23.93 GEO1551I ROUTING SWITCH FOR WORKLOAD WKL_NOVA_P2 INIT IATE
PTKA 14165 08:53:32.40 GEO1548I ROUTING SWITCH FOR WKL_NOVA_P2 PROC EEDI NG
PTKA 14165 08:53:32.42 GEO1551I ROUTING SWITCH FOR WORKLOAD WKL_NOVA_P2 INITIATE
PTKA 14165 08:53:34.07 GEO1548I ROUTING SWITCH FOR WKL_NOVA_P2 PROCEEDING
PTKA 14165 08:53:35.63 GEO1552I ROUTING SWITCH WKL_NOVA_P2 DB2 PREPARE OK
PTKA 14165 08:53:35.64 F AQSA DV,Q UIES CE,W ORKL OAD= WKL_ NOVA _P2
PTKA 14165 08:53:35.71 AQS0155I WORKLOAD WKL_NOVA_P2 QUIESCED
PTKA 14165 08:53:38.65 GEO1560I ROUTING QUIESCED FOR WORKLOAD WKL_NOVA_P2 in PLEXPT1
3. Deac tiva t e当前 的Wor kloa d ,并对站 点A上 的DB2 表空间 加Sof tfen c e保护, 以使站 点A只 有QRE P才能 去Upd at e表,确 保其它的 应用都无 法更改表 的数据.
PTKA 14165 08:53:46.03 GEO1539I WORKLOAD WKL_NOVA_P2 DB2 COMPONENT LIST 1 CREA TED
PTKA 14165 08:53:46.05 GEO1565I ROUTING SWITCH WORKLOAD WKL_NOVA_P2 DB2 COMPONENT
LIST2 CREATED
PTKA 14165 08:53:46.05 GEO1567I ROUTING SWITCH WORKLOAD WKL_NOVA_P2 DB2 IN WAIT FOR
QUEUED TRAN SACT IONS
PTKA 14165 08:53:47.57 GEO1569I ROUTING SWITCH WORKLOAD WKL_NOVA_P2 DB2 THREADS
ARE PURGED
PTKA 14165 08:53:47.58 F AQSA DV,D EACT IVAT E,WO RKLO AD=W KL_N OVA_ P2
PTKA 14165 08:53:48.34 AQS0155I WORKLOAD WKL_NOVA_P2 DEAC TIVA TED
PTKA 14165 08:53:50.61 GEO1537I GDPS/A-A ROUTING SWITCH - PREPARE FENCE OPERATIONS
FOR WKL_NOVA_P2 IN PLEXPT1
PTKA 14165 08:53:58.22 GEO1533I ROUTING SWITCH WORKLOAD WKL_NOVA_P2 DB2 SETFENCE
RREPL SUCCESFULLY EXECUTED IN PLEXPT1
4.对QREP 发 送STO P Q命令, 关闭站 点B的S oftf enc e保 护, Activate 站 点B的W orkl oads .之后将 由B站点 开始提供 外界服务 .
PTKA 14165 08:54:40.03 GEO1582I ROUTING SWITCH WORKLOAD WKL_NOVA_P2 DB2
REPLICATION SUCCESFULLY STOPPED
PTKA 14165 08:54:40.05 GEO1537I GDPS/A-A ROUTING SWITCH - PREPARE FENCE OPERATIONS
FOR WKL_NOVA_P2 IN PLEXPT3
PTKA 14165 08:54:43.18 GEO1533I ROUTING SWITCH WORKLOAD WKL_NOVA_P2 DB2 SETFENCE RW SUCCESFULLY EXECUTED IN PLEXPT3
PTKA 14165 08:54:43.20 F AQSA DV,A CTIV ATE, WORK LOAD =WKL _NOV A_P2 ,SIT E=PL EXPT 3
PTKA 14165 08:54:43.29 AQS0153I WORKLOAD WKL_NOVA_P2 ACTIVATED ON SITE PLEX PT3
PTKA 14165 08:54:46.28 GEO1589I ROUTING SWITCH COMPLETED FOR WORKLOAD
WKL_NOVA_P2 FROM PLEXPT1 TO SITE PLEXPT3
5. 统计站点切换时间
对于Workload WKL_ NOVA _P 2,在这 次切换中 用 了1:2 1:2 2,同时 有其它 的Wor kloa d s也并行 做着切换 .整体的 站点切换 时间 在2分钟 内完成, 满足银行 的切换时 间需求 .
PTKA 14165 08:53:23.93 GEO1551I ROUTING SWITCH FOR WORKLOAD WKL_NOVA_P2 INITIATE
……
PTKA 14165 08:54:46.28 GEO1589I ROUTING SWITCH COMPLETED FOR WORKLOAD WKL_NOVA_P2 FROM PLEXPT1 TO SITE PLEXPT3
作者:曾脉 IBM
邮箱:z engm aiAT cn.i bm.c om ( 替换A T为@)
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。